La mayoría de las respuestas han ayudado a aclarar lo que es la modelización para la explicación y la modelización para la predicción y por qué se diferencian. Lo que no está claro, hasta ahora, es cómo difieren. Así que pensé en ofrecer un ejemplo que podría ser útil.
Supongamos que estamos interesados en modelar el GPA universitario en función de la preparación académica. Como medidas de preparación académica, tenemos:
- Resultados de la prueba de aptitud;
- El promedio de calificaciones de la escuela secundaria; y
- Número de exámenes AP aprobados.
Estrategia de predicción
Si el objetivo es la predicción, podría utilizar todas estas variables simultáneamente en un modelo lineal y mi principal preocupación sería la precisión predictiva. Cualquiera de las variables que resulte más útil para predecir el GPA de la universidad se incluiría en el modelo final.
Estrategia de explicación
Si el objetivo es la explicación, me preocuparía más por la reducción de datos y pensaría cuidadosamente en las correlaciones entre las variables independientes. Mi principal preocupación sería la interpretación de los coeficientes.
Ejemplo
En un problema multivariante típico con predictores correlacionados, no sería raro observar coeficientes de regresión "inesperados". Dadas las interrelaciones entre las variables independientes, no sería sorprendente ver coeficientes parciales para algunas de estas variables que no están en la misma dirección que sus relaciones de orden cero y que pueden parecer contra intuitivos y difíciles de explicar.
Por ejemplo, supongamos que el modelo sugiere que (teniendo en cuenta las puntuaciones de las pruebas de aptitud y el número de pruebas AP realizadas con éxito) los promedios más altos de la escuela secundaria están asociados con baja El promedio de la universidad. Esto no es un problema para la predicción, pero sí para un modelo explicativo en el que dicha relación es difícil de interpretar . Este modelo puede proporcionar las mejores predicciones fuera de la muestra, pero no ayuda a comprender la relación entre la preparación académica y el GPA universitario.
En cambio, una estrategia explicativa podría buscar alguna forma de reducción de variables, como los componentes principales, el análisis factorial o el SEM para:
- centrarse en la variable que mejor mide el "rendimiento académico rendimiento" y modelar el GPA de la universidad en función de esa variable; o
- utilizar las puntuaciones de los factores/variables latentes derivadas de la combinación de las tres medidas de preparación académica en lugar de las variables originales.
Este tipo de estrategias puede reducir el poder predictivo del modelo, pero puede permitir comprender mejor la relación entre la preparación académica y el promedio académico.