LTEM: el modelo de evaluación del aprendizaje y la transferencia (Thalheimer)

Q: ¿Por qué los smiling sheets no son útiles para medir el aprendizaje?

Porque la investigación muestra que la satisfacción con el curso no predice el aprendizaje real, y que la percepción de 'cuánto aprendí' tampoco predice la retención. Los cursos más desafiantes pueden percibirse peor y producir más aprendizaje que cursos fáciles y bien valorados.

Q: ¿Qué preguntas sí son útiles en una encuesta post-formación?

Preguntas sobre relevancia del contenido, aspectos del diseño mejorables, intención de aplicación ('¿qué harás diferente?'), barreras anticipadas y claridad de materiales. Estas producen datos accionables. Las preguntas de satisfacción genérica no producen datos útiles para mejorar el aprendizaje.

El LTEM (Learning-Transfer Evaluation Model) de Will Thalheimer es la respuesta más articulada y respaldada por evidencia a una pregunta que todo profesional de L&D debería hacerse: ¿nuestros “smiling sheets” del nivel 1 de Kirkpatrick realmente nos dicen algo sobre si el aprendizaje funcionó? La respuesta honesta es no —y el LTEM propone una escala más granular, más rigurosa y más útil para medir si la formación produce lo que promete producir.

En esta guía

Qué es el LTEM
Los ocho niveles del LTEM
Por qué el nivel 1 Kirkpatrick no es suficiente
Transferencia: el nivel más ignorado
Cómo diseñar evaluaciones según el LTEM
LTEM vs. Kirkpatrick
Preguntas frecuentes

Qué es el LTEM

Will Thalheimer, investigador y consultor de L&D (Learning and Development), publicó el LTEM en 2018 como un framework de evaluación diseñado específicamente para capturar lo que el modelo de Kirkpatrick (y sus variantes como el modelo Phillips de ROI) no captura bien: la transferencia real del aprendizaje al desempeño laboral.

El LTEM parte de una crítica bien fundamentada: los modelos de evaluación dominantes en el campo de L&D producen datos que se ven bien en los reportes pero que no dicen nada sobre si el aprendizaje realmente ocurrió ni si se transfirió al trabajo. En particular:

Las encuestas de satisfacción al final del curso (el “smiling sheet” o nivel 1 de Kirkpatrick) no predicen el aprendizaje ni la transferencia
Las pruebas al final del curso (nivel 2) miden retención inmediata, que puede ser altísima aunque el conocimiento desaparezca en días
La “transferencia de comportamiento” (nivel 3) muchas veces se mide de forma tan imprecisa que los datos son casi inútiles

El LTEM no reemplaza la idea de medir resultados —Kirkpatrick tenía razón en que debemos medir resultados— sino que proporciona un mapa más preciso de qué medir y cuándo.

Los ocho niveles del LTEM

El LTEM tiene ocho niveles, organizados de menor a mayor rigor y significancia:

Nivel 1: Asistencia (Attendance)

El nivel más básico: el aprendiz asistió o completó la actividad de aprendizaje. No dice nada sobre qué aprendió. Sin embargo, es un dato relevante: si la asistencia es baja, los demás niveles son irrelevantes.

Nivel 2: Actividad (Activity)

El aprendiz participó activamente en la actividad de aprendizaje: completó los módulos, respondió preguntas, participó en discusiones. Mide engagement superficial pero no aprendizaje.

Nivel 3: Percepción de aprendizaje (Learner Perception)

Las encuestas de satisfacción y las autoevaluaciones de “qué tanto aprendiste” pertenecen a este nivel. Este es el nivel de los smiling sheets. Thalheimer es contundente: la investigación muestra que la percepción de aprendizaje de los aprendices no predice el aprendizaje real. Los cursos percibidos como fáciles o entretenidos no necesariamente producen más aprendizaje que los cursos más desafiantes.

Nivel 4a: Conocimiento y habilidad inmediatos

Pruebas realizadas inmediatamente después de la formación que miden lo que el aprendiz recuerda y puede hacer en ese momento. Este es el nivel 2 de Kirkpatrick. Problema: la retención inmediata puede ser alta aunque el conocimiento se pierda en días sin repetición.

Nivel 4b: Conocimiento y habilidad con retardo

Pruebas realizadas días, semanas o meses después de la formación. Esta es la medición más honesta del aprendizaje porque captura la retención real después de que el efecto de la recencia ha desaparecido. Este es el nivel que más se omite en la práctica y donde más diferencias hay entre programas con buen diseño instruccional y sin él.

Nivel 5: Desempeño en entornos controlados (Maintenance and Transfer Simulation)

Evaluación del desempeño en simulaciones o entornos de práctica controlados —después de la formación y con tiempo transcurrido. Mide si el aprendiz puede aplicar lo aprendido en condiciones que se parecen al trabajo real, pero aún sin los factores imprevistos del entorno laboral auténtico.

Nivel 6: Transferencia al trabajo (Transfer)

Medición del desempeño real en el trabajo, en situaciones auténticas, después de la formación. Esta es la medición de transferencia genuina. Incluye variabilidad real: situaciones inesperadas, presión, interrupciones, otros factores del entorno laboral.

Nivel 7: Resultados de equipo y organización (Team and Organizational Performance)

Medición del impacto de la formación en los resultados del equipo u organización: ventas, satisfacción de clientes, reducción de errores, productividad. Este nivel requiere aislar el efecto de la formación de otros factores, lo que es metodológicamente complejo pero posible con diseño de evaluación cuidadoso.

Nivel 8: Efectos sociales y organizacionales más amplios

El nivel más alto: el impacto de la formación más allá de los resultados inmediatos del negocio. Incluye efectos en la cultura organizacional, en la comunidad, en el sector. Relevante para programas de gran escala o de impacto estratégico.

Por qué el nivel 1 Kirkpatrick no es suficiente

La crítica más conocida de Thalheimer es la del smiling sheet: la encuesta de satisfacción que se entrega al final del curso y que pregunta “¿cómo calificas este entrenamiento?” o “¿cuánto aprendiste hoy?”

La evidencia de investigación es clara:

La satisfacción con el curso no predice el aprendizaje (Sitzmann et al., 2010)
La percepción de “cuánto aprendí” no predice la retención real (Morehead et al., 2019)
Los cursos percibidos como difíciles pueden producir mayor aprendizaje que los percibidos como fáciles
Las actividades de recuperación activa (que producen más aprendizaje) se perciben como más difíciles y pueden recibir calificaciones de satisfacción más bajas

Esto no significa que no haya que recoger feedback de los aprendices —hay preguntas útiles que sí se pueden hacer al finalizar un curso. Significa que las preguntas de satisfacción genérica no son evidencia de efectividad y no deben usarse como tal.

Preguntas más útiles en el nivel 3: “¿Qué parte del contenido fue más relevante para tu trabajo?” “¿Qué aspectos del diseño del curso podrían mejorar?” “¿Qué harás diferente en tu trabajo a partir de esta formación?” Estas preguntas producen datos accionables para mejorar el diseño.

Transferencia: el nivel más ignorado

El nivel 4b (retención diferida) y los niveles 5-7 (transferencia) son los más significativos y los más raramente medidos. Las razones son prácticas: requieren tiempo, coordinación con los supervisores de los participantes, acceso a datos de desempeño laboral y, a veces, diseño cuasi-experimental.

Sin embargo, medir solo los niveles 1-4a es como medir el éxito de un programa de entrenamiento físico con una balanza el mismo día después del entrenamiento. El verdadero resultado no se ve inmediatamente.

Estrategias para medir transferencia sin investigación de laboratorio:

Encuestas de seguimiento con el aprendiz (4-6 semanas después): ¿has podido aplicar lo aprendido? ¿En qué situaciones? ¿Qué obstáculos has encontrado?

Encuestas a supervisores (4-6 semanas después): ¿has observado cambios en el desempeño relacionados con la formación?

Análisis de datos de desempeño antes y después de la formación: si el entrenamiento afecta métricas medibles (tiempo de resolución de casos, tasa de error, ventas), comparar antes y después con un grupo de control si es posible.

Observación o evaluación de desempeño estructurada a las 4-8 semanas post-formación con rúbricas vinculadas a los objetivos del curso.

LTEM vs. Kirkpatrick

	Kirkpatrick	LTEM
Número de niveles	4	8
Nivel 1 (reacción)	Satisfacción del participante	Asistencia + actividad + percepción (3 niveles separados)
Nivel 2 (aprendizaje)	Prueba post-formación	Distingue entre retención inmediata y retención diferida
Transferencia	Nivel 3 (comportamiento)	Distingue entre simulación controlada y transferencia laboral real
Resultados	Nivel 4 (resultados)	Nivel 7 (equipo/organización) + Nivel 8 (efectos más amplios)
Validez predictiva	Los niveles inferiores no predicen los superiores	Focaliza en niveles con mayor validez

Preguntas frecuentes

¿Qué es el LTEM?

Es el Learning-Transfer Evaluation Model, desarrollado por Will Thalheimer en 2018. Es un modelo de evaluación del aprendizaje con ocho niveles que va desde la simple asistencia hasta los efectos sociales y organizacionales. Su aportación más importante es distinguir la retención inmediata de la retención diferida y articular diferentes niveles de transferencia al trabajo real.

¿Por qué los smiling sheets no son útiles para medir el aprendizaje?

Porque la investigación muestra consistentemente que la satisfacción con el curso no predice el aprendizaje real, y que la percepción de "cuánto aprendí" tampoco predice la retención. Los cursos diseñados con más desafío cognitivo pueden percibirse como más difíciles y recibir calificaciones de satisfacción más bajas, aunque produzcan más aprendizaje que cursos fáciles y bien valorados.

¿Qué es la retención diferida y por qué importa?

Es la retención del conocimiento medida días, semanas o meses después de la formación —no inmediatamente al terminar. Es la medición más honesta del aprendizaje porque captura lo que realmente quedó después de que el efecto de la recencia ha desaparecido. La diferencia entre buenos y malos diseños instruccionales es mucho más visible en la retención diferida que en la inmediata.

¿Cuál es la diferencia entre el LTEM y el modelo Kirkpatrick?

El LTEM tiene 8 niveles en lugar de 4, distingue entre retención inmediata y diferida (que Kirkpatrick agrupa en el nivel 2), separa diferentes tipos de transferencia (simulación vs. trabajo real), y elimina la implicación de que los niveles inferiores predicen los superiores. También es más crítico con el nivel 1: lo divide en tres partes y señala que la satisfacción no es evidencia de aprendizaje.

¿Cómo medir la transferencia del aprendizaje sin un estudio de investigación formal?

Con encuestas de seguimiento al aprendiz 4-6 semanas después, encuestas a supervisores sobre cambios observados en el desempeño, análisis de datos de desempeño antes y después de la formación (si hay métricas disponibles), y observación estructurada con rúbricas vinculadas a los objetivos del curso. No es necesario un experimento controlado para recoger datos útiles sobre transferencia.

¿El LTEM reemplaza completamente al modelo Kirkpatrick?

Thalheimer lo propone como alternativa más rigurosa, no necesariamente como reemplazo si Kirkpatrick está arraigado en la organización. En organizaciones donde Kirkpatrick es el lenguaje establecido, se puede usar el LTEM internamente para diseñar la evaluación con mayor rigor, y reportar los resultados en términos de los cuatro niveles de Kirkpatrick para la audiencia ejecutiva. El objetivo final —medir si el aprendizaje produce cambios reales en el trabajo— es el mismo.

¿Qué preguntas SÍ son útiles en una encuesta post-formación?

Preguntas sobre relevancia del contenido para el trabajo real, aspectos del diseño que podrían mejorar, intención de aplicación ("¿qué harás diferente?"), barreras anticipadas para la aplicación, y claridad de los materiales. Estas preguntas producen datos accionables para mejorar el diseño. Las preguntas de satisfacción genérica ("¿cuánto te gustó el curso?") no producen datos útiles para mejorar el aprendizaje.

¿Por qué es importante separar retención inmediata y retención diferida?

Porque la retención inmediata puede ser engañosa: el efecto de la recencia mantiene la información disponible en las horas siguientes al aprendizaje, independientemente de cuán bien se haya aprendido. La retención diferida —medida días o semanas después— revela qué realmente se consolidó en la memoria a largo plazo. Un diseño instruccional que incluye práctica de recuperación, espaciado y elaboración mostrará una brecha mucho menor entre retención inmediata y diferida que un diseño sin estos elementos.

¿Cómo convencer a la organización de invertir en evaluación más rigurosa?

El argumento más efectivo es el del costo de la ignorancia: si no medimos si la formación funciona, no podemos mejorarla ni justificar la inversión. Una evaluación rigurosa no solo demuestra valor —también identifica qué no funciona para poder corregirlo. La propuesta no es "más evaluación" sino "evaluación que nos diga algo útil para mejorar el diseño y demostrar resultados de negocio".

Fuentes consultadas

Thalheimer, W. (2018). The Learning-Transfer Evaluation Model: Sending Messages to Enable Learning Effectiveness. Work-Learning Research. Retrieved from willthalheimer.com
Thalheimer, W. (2018). Myths, Half-Truths, and Misrepresentations in Learning Research. Work-Learning Research.
Kirkpatrick, D. L. (1959). Techniques for evaluating training programs. Journal of the American Society of Training Directors, 13(3), 21–26.
Kirkpatrick, J. D., & Kirkpatrick, W. K. (2016). Kirkpatrick’s Four Levels of Training Evaluation. ATD Press.
Sitzmann, T., Brown, K. G., Casper, W. J., Ely, K., & Zimmerman, R. D. (2008). A review and meta-analysis of the nomological network of trainee reactions. Journal of Applied Psychology, 93(2), 280–295.
Morehead, K., Rhodes, M. G., & DeLozier, S. (2016). Instructor and student knowledge of study strategies. Memory, 24(6), 807–816.
Baldwin, T. T., & Ford, J. K. (1988). Transfer of training: A review and directions for future research. Personnel Psychology, 41(1), 63–105.
Blume, B. D., Ford, J. K., Baldwin, T. T., & Huang, J. L. (2010). Transfer of training: A meta-analytic review. Journal of Management, 36(4), 1065–1105.
Bransford, J. D., Brown, A. L., & Cocking, R. R. (Eds.). (2000). How People Learn: Brain, Mind, Experience, and School. National Academies Press.
Brinkerhoff, R. O. (2006). Telling Training’s Story: Evaluation Made Simple, Credible, and Effective. Berrett-Koehler.