78 votos

Reflexiones prácticas sobre la modelización explicativa frente a la predictiva

En abril, asistí a una charla en la serie de seminarios del grupo de Estadística del Departamento de Matemáticas de la UMD titulada "¿Explicar o predecir?". La charla fue impartida por Profesora Galit Shmueli que enseña en la Smith Business School de la UMD. Su charla se basó en la investigación que realizó para un trabajo titulado "Modelización predictiva vs. explicativa en la investigación de los SI" y un documento de trabajo de seguimiento titulado "¿Explicar o predecir?" .

El argumento de la Dra. Shmueli es que los términos predictivo y explicativo en un contexto de modelización estadística se han confundido, y que la literatura estadística carece de una discusión exhaustiva de las diferencias. En el artículo, contrasta ambos términos y habla de sus implicaciones prácticas. Te animo a que leas los artículos.

Las preguntas que me gustaría plantear a la comunidad de profesionales son:

  • ¿Cómo se define un ejercicio predictivo frente a uno explicativo/descriptivo? descriptivo? Sería útil que hablara de la aplicación específica aplicación.
  • ¿Ha caído alguna vez en la trampa de usar uno cuando quería usar el otro? Yo sí. ¿Cómo saber cuál usar?

4voto

Rob Wells Puntos 361

La mayoría de las respuestas han ayudado a aclarar lo que es la modelización para la explicación y la modelización para la predicción y por qué se diferencian. Lo que no está claro, hasta ahora, es cómo difieren. Así que pensé en ofrecer un ejemplo que podría ser útil.

Supongamos que estamos interesados en modelar el GPA universitario en función de la preparación académica. Como medidas de preparación académica, tenemos:

  1. Resultados de la prueba de aptitud;
  2. El promedio de calificaciones de la escuela secundaria; y
  3. Número de exámenes AP aprobados.

Estrategia de predicción

Si el objetivo es la predicción, podría utilizar todas estas variables simultáneamente en un modelo lineal y mi principal preocupación sería la precisión predictiva. Cualquiera de las variables que resulte más útil para predecir el GPA de la universidad se incluiría en el modelo final.

Estrategia de explicación

Si el objetivo es la explicación, me preocuparía más por la reducción de datos y pensaría cuidadosamente en las correlaciones entre las variables independientes. Mi principal preocupación sería la interpretación de los coeficientes.

Ejemplo

En un problema multivariante típico con predictores correlacionados, no sería raro observar coeficientes de regresión "inesperados". Dadas las interrelaciones entre las variables independientes, no sería sorprendente ver coeficientes parciales para algunas de estas variables que no están en la misma dirección que sus relaciones de orden cero y que pueden parecer contra intuitivos y difíciles de explicar.

Por ejemplo, supongamos que el modelo sugiere que (teniendo en cuenta las puntuaciones de las pruebas de aptitud y el número de pruebas AP realizadas con éxito) los promedios más altos de la escuela secundaria están asociados con baja El promedio de la universidad. Esto no es un problema para la predicción, pero sí para un modelo explicativo en el que dicha relación es difícil de interpretar . Este modelo puede proporcionar las mejores predicciones fuera de la muestra, pero no ayuda a comprender la relación entre la preparación académica y el GPA universitario.

En cambio, una estrategia explicativa podría buscar alguna forma de reducción de variables, como los componentes principales, el análisis factorial o el SEM para:

  1. centrarse en la variable que mejor mide el "rendimiento académico rendimiento" y modelar el GPA de la universidad en función de esa variable; o
  2. utilizar las puntuaciones de los factores/variables latentes derivadas de la combinación de las tres medidas de preparación académica en lugar de las variables originales.

Este tipo de estrategias puede reducir el poder predictivo del modelo, pero puede permitir comprender mejor la relación entre la preparación académica y el promedio académico.

3voto

jbcreix Puntos 2383

Me gustaría ofrecer un punto de vista centrado en el modelo sobre la cuestión.

La modelización predictiva es lo que ocurre en la mayoría de los análisis. Por ejemplo, un investigador establece un modelo de regresión con un grupo de predictores. El coeficientes de regresión representan entonces comparaciones predictivas entre grupos. El aspecto predictivo procede del modelo de probabilidad: la inferencia se hace con respecto a un modelo de superpoblación que puede haber producido la población o muestra observada. El objetivo de este modelo es predecir los nuevos resultados de las unidades que surgen de esta superpoblación. A menudo, este es un objetivo vano porque las cosas son siempre cambian, especialmente en el mundo social. O porque su modelo se trata de unidades raras, como los países, y no se puede extraer una nueva muestra. La utilidad del modelo en este caso se deja a la apreciación del analista.

Cuando se trata de generalizar los resultados a otros grupos o futuros unidades, esto sigue siendo una predicción, pero de un tipo diferente. Podemos llamarlo previsión, por ejemplo. El punto clave es que el poder de predicción de los modelos estimados es, por defecto, de descriptivo naturaleza. Usted comparar un resultado entre grupos e hipotetizar un modelo de probabilidad para estas comparaciones, pero no puede concluir que estas comparaciones constituyan efectos causales.

La razón es que estos grupos pueden sufrir sesgo de selección . Es decir, pueden tener naturalmente una puntuación más alta en el resultado de interés, independientemente del tratamiento (la hipotética intervención intervención causal). O pueden estar sometidos a un efecto de tratamiento diferente del tratamiento que otros grupos. Por ello, especialmente en el caso de los estudios observacionales los datos observacionales, los modelos estimados suelen ser predictivo comparaciones y no la explicación. La explicación consiste en la de los efectos causales y requiere experimentos bien diseñados experimentos bien diseñados o el uso reflexivo de variables instrumentales. En las comparaciones predictivas están exentas de cualquier sesgo de selección y representan efectos causales. Por tanto, el modelo puede considerarse explicativo.

He descubierto que pensar en estos términos ha aclarado a menudo lo que estaba realmente al establecer un modelo para algunos datos.

1voto

Allan Puntos 11

Podemos aprender mucho más de lo que pensamos de los modelos "predictivos" de caja negra. La clave está en realizar diferentes tipos de análisis de sensibilidad y simulaciones para comprender realmente cómo se ve afectado el OUTPUT del modelo por los cambios en el espacio INPUT. En este sentido, incluso un modelo puramente predictivo puede proporcionar información explicativa. Este es un punto que a menudo se pasa por alto o se malinterpreta en la comunidad investigadora. Que no entendamos por qué funciona un algoritmo no significa que éste carezca de poder explicativo...

En general, desde el punto de vista de la corriente principal, la sucinta respuesta de probabilityislogic es absolutamente correcta...

1voto

Aksakal Puntos 11351

Hay una distinción entre lo que ella llama explicativo y predictivo aplicaciones en estadística. Dice que deberíamos saber cada vez que utilizamos una u otra, cuál es exactamente la que se está utilizando. Dice que a menudo los confundimos, de ahí que confusión .

Estoy de acuerdo en que en ciencias sociales aplicaciones, la distinción es sensata, pero en las ciencias naturales son y deben ser lo mismo. Además, los llamo inferencia contra. previsión y están de acuerdo en que en ciencias sociales no hay que mezclarlos.

Empezaré por las ciencias naturales. En física nos centramos en explicar, intentamos entender cómo funciona el mundo, qué causa qué, etc. Por lo tanto, la atención se centra en la causalidad, la inferencia y demás. Por otro lado, el aspecto predictivo también forma parte del proceso científico. De hecho, la forma de demostrar una teoría, que ya explicó observaciones bien (piense en la muestra), es predecir nuevas observaciones y luego comprobar cómo ha funcionado la predicción. Cualquier teoría que carezca de capacidad de predicción tendrá grandes problemas para ser aceptada en la física. Por eso los experimentos como Michelson-Morley son tan importantes.

En las ciencias sociales, por desgracia, los fenómenos subyacentes son inestables, irrepetibles, irreproducibles. Si observas la descomposición de los núcleos, obtendrás los mismos resultados cada vez que los observes, y los mismos resultados que obtuve yo o un tipo hace cien años. No en economía o finanzas. Además, la capacidad de realizar experimentos es muy limitada, casi inexistente a efectos prácticos, sólo observar y conducta muestras aleatorias de las observaciones. Puedo seguir, pero la idea es que los fenómenos que tratamos son muy inestables, de ahí que nuestras teorías no tengan la misma calidad que en la física. Por lo tanto, una de las formas de afrontar la situación es centrarse en la inferencia (cuando intentas entender qué causa qué o qué impacto tiene) o en la previsión (simplemente decir lo que crees que va a pasar con esto o aquello ignorando la estructura).

0voto

Brijesh Puntos 1

Un modelo estructural daría una explicación y un modelo predictivo daría una predicción. Un modelo estructural tendría variables latentes. Un modelo estructural es la culminación simultánea de la regresión y el análisis factorial

Las variables latentes se manifiestan en forma de multicolinealidad en los modelos de predicción (regresión).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X