2.1 Introducción
Una vez definido el tipo de evaluación que se llevará a cabo, es necesario seleccionar el diseño metodológico más adecuado para responder las preguntas clave, considerando los recursos disponibles, los tiempos y los actores involucrados.
El diseño metodológico especifica cómo se recopilarán, analizarán e interpretarán los datos para generar evidencia útil y confiable. Es un proceso iterativo que se afina progresivamente: un diseño inicial permite valorar la factibilidad de las preguntas; un diseño final establece con precisión los métodos a utilizar, los indicadores, las fuentes de información y los plazos de implementación. El diseño de una evaluación considera, al menos:
En términos generales, para las evaluaciones de impacto, se pueden utilizar diseños experimentales, cuasi-experimentales o no experimentales (basados en teoría). Los diseños experimentales y cuasi-experimentales permiten estimar el impacto neto de una intervención mediante la comparación de resultados entre un grupo que recibe la intervención y un grupo de referencia o contrafactual. Estos diseños son especialmente útiles para responder a la pregunta “¿funcionó?”, ya que ofrecen evidencia sólida sobre la efectividad de una política o programa. Sin embargo, su foco está en el resultado final, por lo que no siempre explican cómo se produjeron los cambios observados, por qué ocurrieron o en qué condiciones podrían replicarse.
Para abordar estas dimensiones, los enfoques basados en teoría resultan de gran utilidad. A través del desarrollo y validación de una Teoría de Cambio, estos diseños permiten explorar los mecanismos causales, los supuestos subyacentes y el rol del contexto, ofreciendo respuestas a preguntas como: ¿Qué elementos de la intervención generaron el cambio?, ¿Para quién funcionó y bajo qué condiciones? o ¿Qué factores intervinieron en los resultados obtenidos?
En el caso de las evaluaciones económicas, se aplican metodologías específicas como el análisis costo-beneficio y el análisis costo-efectividad. El primero permite valorar si los beneficios generados justifican los recursos invertidos. El segundo compara distintas alternativas para alcanzar un mismo objetivo, evaluando cuál ofrece una mejor relación entre costos y resultados.
Además, tanto en evaluaciones piloto, de procesos, de impacto o económicas, se utilizan técnicas de recolección de información compartidas con la investigación social: registros administrativos, encuestas, entrevistas, grupos focales, entre otras. La clave está en combinar distintos métodos y diseños, integrando enfoques cualitativos y cuantitativos para lograr una visión más completa y útil para la toma de decisiones.
En síntesis, diseñar una evaluación no implica aplicar un método aislado, sino articular distintos enfoques y técnicas de forma estratégica para responder las preguntas clave. La integración de diseños experimentales, teóricos y complementarios —junto a un enfoque participativo y contextualizado— fortalece la calidad, la utilidad y la legitimidad del proceso evaluativo. En la Tabla a continuación, se resumen los principales diseños y métodos asociados.
Tabla: Tipos, diseños y métodos de evaluación
Tipo de evaluación |
Diseño de evaluación |
Método de evaluación |
Evaluación piloto |
Estrategias de recolección de información |
Entrevistas, grupos focales, estudios de caso, encuestas exploratorias, monitoreo, observaciones |
Evaluación de procesos |
Estrategias de recolección de información |
Revisión documental, entrevistas, grupos focales, encuestas, análisis de registros administrativos |
Evaluación de impacto |
Experimental |
Ensayo controlado aleatorizado (Randomized Controlled Trial – RCT) |
Cuasi-experimental |
Diseño de discontinuidad en la regresión (Regression Discontinuity Design) |
|
Diferencia en diferencias (Difference-in-Differences) |
||
Emparejamiento por puntaje de propensión (Propensity Score Matching) |
||
Variables instrumentales / Experimentos naturales (Instrumental Variables / Natural Experiments) |
||
No experimental (basado en teoría) |
Análisis comparativo cualitativo (Qualitative Comparative Analysis – QCA) |
|
Análisis de contribución (Contribution Analysis) |
||
Cambio más significativo (Most Significant Change) |
||
Cosecha de resultados (Outcome Harvesting) |
||
Evaluación realista (Realist Evaluation) |
||
Rastreo de procesos (Process Tracing) |
||
Evaluación económica |
Costo-beneficio / Costo-efectividad |
Análisis de costo-beneficio (Cost-Benefit Analysis), análisis de costo-efectividad (Cost-Effectiveness Analysis) |
Fuente: Elaboración propia a partir del Magenta Book (HM Treasury, 2020). Consulta el documento completo aquí
📚 Recursos recomendados: Para profundizar en los tipos, diseños y métodos de evaluación, te recomendamos consultar los siguientes materiales:
|
2.2 Diseños experimentales y cuasi-experimentales
Los diseños experimentales y cuasi-experimentales se utilizan en evaluaciones de impacto y su principio central es la existencia de un contrafactual: es decir, los resultados observados en un grupo de control que no recibió la intervención, comparables con los resultados del grupo que sí recibió la intervención.
El objetivo de estos diseños es evaluar los resultados específicos atribuibles a una intervención, por ejemplo, el incremento en el aprendizaje estudiantil como resultado de un cambio en la formación docente. Este tipo de diseño infiere el impacto promedio de una intervención mediante la comparación estadística con un grupo o período de tiempo no afectado por la intervención, que actúa como un contrafactual.
Requisitos clave para un diseño válido
El contrafactual representa la situación hipotética que habrían vivido los beneficiarios si no hubieran recibido la intervención. Es decir, describe lo que habría ocurrido en ausencia de la política, programa o proyecto. Para que esta comparación sea válida —y el efecto estimado pueda atribuirse con confianza a la intervención—, la construcción del contrafactual debe cumplir con ciertas condiciones fundamentales:
Por ello, se recomienda que el diseño de evaluación se incorpore desde el inicio del programa, permitiendo definir grupos de tratamiento y comparación adecuados, así como planificar la recolección de datos necesarios.
¿Cuándo son más adecuados estos diseños?
Los diseños experimentales y cuasi-experimentales tienden a ser más adecuados cuando:
Enfoques para construir el contrafactual
Existen dos enfoques principales para construir un contrafactual en evaluaciones de impacto:
En términos simples:
En la práctica, los diseños cuasi-experimentales son más frecuentes, ya que presentan mayor flexibilidad y factibilidad en contextos educativos y sociales, donde la aleatorización no siempre es posible o ética. En la Tabla a continuación, se presentan los métodos de evaluación más comunes para los diseños experimentales o cuasi-experimentales.
Tabla: Métodos de evaluación para diseños experimentales y cuasi-experimentales
Diseño |
Método |
Descripción |
[1] Experimental |
Ensayo controlado aleatorizado (Random Control Trial) |
Se asigna aleatoriamente a las personas a un grupo con intervención o a un grupo de control para comparar resultados. |
[2] Cuasi – experimentales |
Diseño de discontinuidad en la regresión (Regression discontinuity design) |
Se usa un umbral (como una nota o ingreso) para definir quién recibe la intervención. Se comparan los que están justo por encima y por debajo de este umbral. |
Diferencia en diferencias (Difference-in-difference) |
Compara dos grupos que no fueron asignados aleatoriamente, pero que se supone habrían seguido trayectorias similares sin la intervención. |
|
Emparejamiento por puntaje de propensión (Propensity Score Matching) |
Se construye un grupo de comparación con características similares al grupo tratado, usando variables conocidas. |
|
Variables instrumentales / Experimentos naturales (Instrumental variables/Natural experiments) |
Usa un factor externo (instrumento) que afecta la participación pero no el resultado. |
Fuente: Elaboración propia a partir del Magenta Book (HM Treasury, 2020). Consulta el documento completo aquí
📚 Recursos recomendados: Para profundizar en los diseños experimentales y cuasi-experimentales, y en los métodos más adecuados para cada caso, te recomendamos consultar los siguientes materiales:
|
Aprendizajes y lecciones desde la experiencia: casos de estudio sobre diseños cuasi-experimentales
🔍 Caso práctico: La evaluación del programa Modelo Pionero – Chile Modelo Pionero es una iniciativa de innovación educativa liderada por Anglo American, que busca fortalecer el desarrollo de habilidades del siglo XXI en estudiantes de enseñanza media técnico-profesional de Chile. El programa se implementa en seis liceos de las regiones de Valparaíso y Metropolitana, combinando cuatro componentes principales: trayectorias formativas, habilidades para el siglo XXI, cultura y clima escolar, y transformación pedagógica. Para evaluar sus efectos, SUMMA diseñó una evaluación de impacto con el objetivo de generar evidencia rigurosa sobre los cambios promovidos por el programa, tanto en habilidades cognitivas como socioemocionales. En el marco de esta evaluación fue necesario implementar una innovación metodológica para diseñar una evaluación de impacto que se ajustara a una muestra reducida —compuesta por solo cinco escuelas en el grupo de tratamiento y seis en el grupo de control—. Ante esta limitación, desde SUMMA se optó por un diseño cuasi-experimental basado en la metodología de diferencias en diferencias (DiD), complementado con la recolección de datos longitudinales. Esto implicó medir resultados año a año, utilizando cada punto de medición como una nueva observación para fortalecer la estimación del impacto. Este proceso metodológico implicó varios desafíos en la construcción del diseño, especialmente en términos de validez estadística y factibilidad operativa, y dio lugar a observaciones valiosas y lecciones aprendidas sobre cómo adaptar enfoques evaluativos a contextos con restricciones muestrales. 👉 Puedes conocer más sobre Modelo Pionero, haz clic aquí. |
🔍 Caso práctico: La evaluación del programa ProFuturo – América Latina ProFuturo es un programa global de educación digital impulsado por Fundación Telefónica y Fundación “la Caixa”, cuyo propósito es reducir la brecha educativa y mejorar la calidad de la enseñanza en comunidades que enfrentan condiciones socioeducativas vulnerables. La iniciativa combina innovación pedagógica y tecnologías digitales para fortalecer los sistemas educativos y favorecer el aprendizaje de millones de niños y niñas en contextos desafiantes. Desde su lanzamiento en 2016, ProFuturo se ha expandido a 30 países de América Latina, el Caribe, África y Asia. El programa se implementa a través de dos modalidades: el Modelo Integral, que contempla un acompañamiento más intensivo y estructurado a las escuelas; y el Modelo Abierto, que ofrece acceso flexible a recursos y formación docente. Estas modalidades han permitido adaptar la intervención a diversos contextos locales, ampliando su alcance y relevancia. ⚠️ A pesar de los avances alcanzados, ProFuturo se enfrentaba al desafío de generar evidencia robusta sobre los resultados e impactos de ambas modalidades en un contexto marcado por importantes limitaciones para la evaluación. Entre estas limitaciones se encuentran la falta de datos homogéneos y comparables, así como la diversidad de contextos educativos, lo que dificulta la aplicación de enfoques estandarizados (Burns, 2021). De esta forma, antes de avanzar hacia una evaluación de impacto a gran escala —la cual requiere una inversión significativa y una base sólida de evidencia previa—, SUMMA diseñó una evaluación cuasi-experimental para estimar efectos promisorios del programa en indicadores como aprendizaje, asistencia, matrícula y desarrollo profesional docente, en países como Chile, Brasil, Perú y Ecuador. 📊 En el caso del Modelo Integral, para identificar estos efectos, se aplicaron metodologías como Propensity Score Matching (PSM) (en Chile) y Diferencias en Diferencias (DiD) (en Perú, Brasil y Ecuador), en función de la calidad y variedad de los datos disponibles. 💡Estas técnicas permitieron construir un contrafactual a partir de datos administrativos nacionales y del sistema de monitoreo de ProFuturo, lo cual facilitó generar evidencia robusta adaptándose a las limitaciones contextuales y de datos de cada país. 💡Este ejercicio permitió generar evidencia promisoria de impacto, identificar variables asociadas a mejores resultados —como integración tecnológica, motivación docente y cuidado del equipamiento— y avanzar hacia una futura evaluación de impacto más robusta y regionalmente contextualizada. 👉 Puedes conocer más sobre el programa ProFuturo haz clic aquí: https://profuturo.education/ |
2.3 Diseños no experimentales (basados en teoría)
Los diseños basados en teoría permiten analizar cómo y por qué una intervención produce los resultados observados, sin necesidad de construir un contrafactual. Se centran en explorar las cadenas causales que vinculan las actividades de la intervención con sus efectos, permitiendo “abrir la caja negra” de los procesos de cambio. A diferencia de los enfoques experimentales, que estiman el efecto neto mediante la comparación entre grupos, estos diseños buscan comprender la contribución de una intervención a los resultados, poniendo énfasis en el contexto, los mecanismos de cambio y las trayectorias causales.
Este tipo de enfoque es especialmente útil cuando:
2.3.1 ¿Qué caracteriza a estos diseños?
Los enfoques basados en teoría se apoyan en dos principios fundamentales:
Estos diseños asumen que en la mayoría de las intervenciones sociales no existe una única causa para un resultado, sino una interacción compleja de factores. Por ello, su foco está en la plausibilidad causal, no en la exclusividad causal.
2.3.2 ¿Qué métodos se utilizan?
Todos los métodos evaluativos pueden formar parte de un diseño basado en teoría —en especial los utilizados en evaluaciones de procesos—. Sin embargo, algunos enfoques han sido desarrollados específicamente para este propósito, como:
En la Tabla a continuación, se presentan con mayor detalle:
Tabla: Métodos de evaluación para diseños no experimentales o basados en teoría
Diseño |
Método |
Descripción |
No experimental |
Análisis comparativo cualitativo (Qualitative Comparative Analysis) |
Compara varios casos para detectar combinaciones de factores que llevan al éxito o al fracaso. Reconoce que puede haber múltiples caminos al mismo resultado. |
Análisis de contribución (Contribution Analysis) |
Evalúa si una intervención contribuyó al resultado, revisando evidencia sobre la teoría del cambio. No busca probar causalidad, sino construir una explicación fundamentada. |
|
Cambio más significativo (Most-significant change) |
Método participativo que recolecta historias de cambio desde el terreno. Luego, actores clave seleccionan colectivamente las historias más relevantes. |
|
Cosecha de resultados (Outcome harvesting) |
Identifica cambios significativos y luego investiga cómo la intervención contribuyó a ellos, con participación activa de actores. |
|
Evaluación realista (Realist evaluation) |
Analiza cómo y por qué ocurre un cambio, según mecanismos causales que funcionan de manera distinta según el contexto. Se utiliza principalmente para entender cómo y por qué distintos proyectos funcionan en diferentes contextos. |
|
Rastreo de procesos (Process Tracing) |
Aplica pruebas formales para evaluar la solidez de la evidencia que vincula las posibles causas con los cambios observados. |
Fuente: Elaboración propia a partir del Magenta Book (HM Treasury, 2020). Consulta el documento completo aquí
📚 Recursos recomendados: Para profundizar en los diseños no experimentales basados en teoría, y en los métodos más utilizados para este enfoque, te recomendamos revisar los siguientes documentos elaborados por INTRAC:
|
En síntesis, los diseños experimentales y cuasi-experimentales permiten estimar el impacto neto de una intervención al comparar resultados entre un grupo tratado y un contrafactual. Son útiles para responder a la pregunta “¿funcionó?”, ya que aportan evidencia sólida sobre la efectividad de una política o programa.
Sin embargo, no están diseñados para explicar por qué y cómo ocurrieron los resultados observados, ni si estos podrían replicarse en otro contexto o a mayor escala. Los enfoques basados en teoría permiten cubrir estas limitaciones, ya que exploran los mecanismos causales, el rol del contexto y los supuestos detrás de la intervención. A través del desarrollo y validación de una Teoría de Cambio, estos diseños ayudan a responder preguntas como “¿qué elementos de la intervención generaron el cambio?”, “¿en qué condiciones funcionó?” y “¿para quién tuvo efecto?”.
Por este motivo, se recomienda combinar enfoques experimentales o cuasi-experimentales con diseños basados en teoría y con evaluaciones de proceso, para lograr una comprensión más completa y útil para la toma de decisiones.
🔍 Caso práctico: Diseños basados en teoría – ProFuturo y el Modelo Integral Contexto: Tras una primera fase de evaluación cuantitativa del programa ProFuturo, mediante un diseño cuasi-experimental con datos secundarios, se identificaron efectos positivos y significativos en indicadores clave como rendimiento académico en matemáticas y lectoescritura, asistencia, matrícula y desarrollo profesional docente. Estos resultados plantearon la necesidad de comprender los mecanismos causales detrás de los efectos observados y cómo estos varían según el contexto. Objetivo del estudio: Explorar cómo se implementa el Modelo Integral en diversos entornos, qué dinámicas y mecanismos explican los resultados obtenidos, y bajo qué condiciones estos efectos se reproducen. El enfoque se centró en comprender el cómo y el por qué de los resultados, más allá de su mera existencia. Algunas preguntas de investigación:
Enfoque metodológico y técnicas de análisis: La evaluación empleó un diseño no experimental basado en teoría, utilizando como referencia la Teoría de Cambio del Modelo Integral previamente co-construida por SUMMA y ProFuturo. El método principal fue el Rastreo de Procesos (Process Tracing), que permite documentar con rigor la secuencia de eventos y decisiones que explican cómo se producen los efectos del programa. Se trabajó con muestras pequeñas pero estratégicas en Chile, Brasil, Perú y Ecuador, seleccionando escuelas donde se analizaron en profundidad los procesos de implementación. La técnica permitió contrastar empíricamente la teoría con la práctica, identificar mecanismos causales y examinar el rol de factores contextuales. Principales hallazgos: Se identificaron siete mecanismos críticos asociados a la efectividad del programa, entre ellos: liderazgo pedagógico, alineación entre actores clave, personalización del aprendizaje y apropiación institucional del modelo. También se identificaron condiciones habilitantes y barreras recurrentes en la implementación como sobrecarga docente, la rotación de equipos directivos o brechas de infraestructura. 💡 Valor agregado del enfoque: La evaluación basada en teoría permitió abrir la “caja negra” del programa, proporcionando una explicación detallada de cómo y por qué se generan los resultados. Esta mirada complementa la fase cuantitativa previa, fortaleciendo la robustez de los hallazgos y aportando insumos clave para mejorar el diseño, la adaptabilidad y la escalabilidad del Modelo Integral en futuros contextos de implementación. |
2.4 Métodos de investigación cualitativa y cuantitativa complementarios
En las evaluaciones piloto y de procesos, no se emplean métodos de evaluación en sentido estricto —como ocurre en las evaluaciones de impacto con diseños experimentales o cuasi-experimentales—, sino más bien estrategias de recolección y/o producción de información que provienen del campo de la investigación social y educativa. Estas herramientas permiten comprender en profundidad los contextos, dinámicas y percepciones asociados a la implementación de una intervención.
Aunque su uso es especialmente relevante en evaluaciones de procesos, estas estrategias también complementan las evaluaciones de impacto, aportando una visión más comprensiva y enriqueciendo la interpretación de los resultados cuantitativos. A continuación, se presentan las principales estrategias cualitativas y cuantitativas empleadas en las evaluaciones piloto, de procesos e incluso de impacto:
Tabla: Técnicas de producción de información para evaluaciones piloto, de procesos e impacto
Técnica |
Descripción |
Encuestas |
Instrumentos estructurados (generalmente cuestionarios) diseñados para recopilar datos de una gran cantidad de personas. Permiten medir percepciones, actitudes o comportamientos, y generar datos cuantitativos comparables. |
Entrevistas |
Conversaciones guiadas que permiten explorar en profundidad experiencias, significados y perspectivas de los participantes. Pueden ser estructuradas, semi-estructuradas o abiertas. |
Casos de estudio |
Análisis detallado de un individuo, grupo, institución o evento específico. Proporciona una comprensión contextual rica y es útil para explorar fenómenos complejos o singulares. |
Grupos focales |
Discusiones grupales facilitadas que permiten indagar en opiniones compartidas, divergencias y significados colectivos sobre un tema específico. Útiles para generar hipótesis o validar hallazgos. |
Monitoreo |
Recolección continua y sistemática de información durante la implementación de una intervención. Permite hacer seguimiento al progreso, detectar desviaciones y apoyar la toma de decisiones. |
Observaciones |
Registro directo y sistemático de comportamientos, prácticas o interacciones en su contexto natural. Aporta evidencia empírica sobre cómo se desarrollan realmente los procesos. |
📚 Recursos recomendados: Para profundizar en las técnicas de producción de información, te invitamos a revisar los siguientes recursos:
|
2. 5 Métodos para evaluaciones económicas
Las evaluaciones económicas permiten estimar si una intervención genera beneficios que justifican su costo, proporcionando así insumos clave para la toma de decisiones basadas en eficiencia. En el contexto de políticas y programas educativos, los enfoques más comunes son:
Estos métodos deben basarse en estimaciones confiables de costos (incluyendo costos marginales y de oportunidad) y efectos (idealmente a través de evaluaciones rigurosas). El momento en que se aplica la evaluación también influye: puede ser prospectiva (antes de implementar el programa, basada en estimaciones) o retrospectiva (una vez que se cuenta con datos reales).
📚 Recursos recomendados: Para profundizar en los métodos de evaluación económica, te invitamos a revisar los siguientes recursos:
|