78 votos

Reflexiones prácticas sobre la modelización explicativa frente a la predictiva

En abril, asistí a una charla en la serie de seminarios del grupo de Estadística del Departamento de Matemáticas de la UMD titulada "¿Explicar o predecir?". La charla fue impartida por Profesora Galit Shmueli que enseña en la Smith Business School de la UMD. Su charla se basó en la investigación que realizó para un trabajo titulado "Modelización predictiva vs. explicativa en la investigación de los SI" y un documento de trabajo de seguimiento titulado "¿Explicar o predecir?" .

El argumento de la Dra. Shmueli es que los términos predictivo y explicativo en un contexto de modelización estadística se han confundido, y que la literatura estadística carece de una discusión exhaustiva de las diferencias. En el artículo, contrasta ambos términos y habla de sus implicaciones prácticas. Te animo a que leas los artículos.

Las preguntas que me gustaría plantear a la comunidad de profesionales son:

  • ¿Cómo se define un ejercicio predictivo frente a uno explicativo/descriptivo? descriptivo? Sería útil que hablara de la aplicación específica aplicación.
  • ¿Ha caído alguna vez en la trampa de usar uno cuando quería usar el otro? Yo sí. ¿Cómo saber cuál usar?

50voto

patfla Puntos 1

En una frase

La modelización predictiva trata de "¿qué es probable que ocurra?", mientras que la modelización explicativa trata de "¿qué podemos hacer al respecto?".

En muchas frases

Creo que la principal diferencia es lo que se pretende hacer con el análisis. Yo sugeriría que la explicación es mucho más importante para intervención que la predicción. Si quieres hacer algo para modificar un resultado, lo mejor es que intentes explicar por qué es así. La modelización explicativa, si se hace bien, le dirá cómo intervenir (qué entrada debe ajustarse). Sin embargo, si lo que se quiere es entender cómo será el futuro, sin intención (o capacidad) de intervenir, es más probable que la modelización predictiva sea la más adecuada.

Como ejemplo increíblemente flojo, utilizando "datos sobre el cáncer".

La elaboración de modelos predictivos a partir de "datos sobre el cáncer" sería adecuada (o al menos útil) si se financiaran las salas de cáncer de distintos hospitales. En realidad, no es necesario explicar por qué la gente padece cáncer, sino que sólo se necesita una estimación precisa de la cantidad de servicios que se necesitarán. La modelización explicativa probablemente no ayudaría mucho en este caso. Por ejemplo, saber que el tabaquismo conlleva un mayor riesgo de padecer cáncer no te dice por sí solo si debes dar más fondos a la sala A o a la B.

La modelización explicativa de los "datos del cáncer" sería adecuada si se quisiera disminuir la tasa nacional de cáncer: la modelización predictiva sería bastante obsoleta en este caso. La capacidad de predecir con exactitud las tasas de cáncer difícilmente puede ayudar a decidir cómo reducirlas. Sin embargo, saber que el tabaquismo conlleva un mayor riesgo de cáncer es una información valiosa, ya que si se reducen las tasas de tabaquismo (por ejemplo, haciendo que los cigarrillos sean más caros), esto hace que haya más personas con menos riesgo, lo que (con suerte) conduce a una disminución esperada de las tasas de cáncer.

Si consideramos el problema de esta manera, creo que la modelización explicativa se centraría principalmente en las variables que están bajo el control del usuario, ya sea directa o indirectamente. Puede ser necesario recoger otras variables, pero si no se puede cambiar ninguna de las variables en el análisis, entonces dudo que la modelización explicativa sea útil, excepto quizá para dar el deseo de ganar control o influencia sobre las variables que son importantes. La modelización predictiva, crudamente, sólo busca asociaciones entre variables, controladas o no por el usuario. Sólo necesitas conocer las entradas/características/variables independientes/etc. para hacer una predicción, pero necesitas poder modificar o influir en las entradas/características/variables independientes/etc. para intervenir y cambiar un resultado.

32voto

alexei.vidmich Puntos 320

En mi opinión, las diferencias son las siguientes:

Explicativo/Descriptivo

Cuando se busca una respuesta explicativa/descriptiva el enfoque principal es el datos que tenemos y buscamos descubrir las relaciones subyacentes entre los datos una vez que se ha tenido en cuenta el ruido.

Ejemplo: ¿Es cierto que hacer ejercicio con regularidad (por ejemplo, 30 minutos al día) provoca una disminución de la presión arterial? Para responder a esta pregunta podemos recoger datos de los pacientes sobre su régimen de ejercicio y sus valores de presión arterial a lo largo del tiempo. El objetivo es ver si podemos explicar variaciones en la presión arterial por variaciones en el régimen de ejercicio.

La presión arterial no sólo se ve afectada por el ejercicio, sino también por una gran variedad de factores, como la cantidad de sodio que ingiere una persona, etc. Estos otros factores se considerarán ruido en el ejemplo anterior, ya que el objetivo es averiguar la relación entre el régimen de ejercicio y la presión arterial.

Predicción

Al hacer un ejercicio de predicción, estamos extrapolar a lo desconocido utilizando las relaciones conocidas entre los datos que tenemos a mano. La relación conocida puede surgir de un análisis explicativo/descriptivo o de alguna otra técnica.

Ejemplo: Si hago ejercicio durante 1 hora al día, ¿hasta qué punto es probable que baje mi presión arterial? Para responder a esta pregunta, podemos utilizar una relación previamente descubierta entre la presión arterial y el régimen de ejercicio para realizar la predicción.

En el contexto anterior, el objetivo no es la explicación, aunque un modelo explicativo puede ayudar en el proceso de predicción. También hay enfoques no explicativos (por ejemplo, las redes neuronales) que son buenos para predecir lo desconocido sin añadir necesariamente a nuestro conocimiento la naturaleza de la relación subyacente entre las variables.

21voto

Senseful Puntos 116

Una cuestión práctica que se plantea aquí es la selección de variables en la modelización. Una variable puede ser una variable explicativa importante (por ejemplo, es estadísticamente significativa) pero puede no ser útil a efectos de predicción (es decir, su inclusión en el modelo conduce a una peor precisión predictiva). Veo este error casi a diario en los artículos publicados.

Otra diferencia está en la distinción entre el análisis de componentes principales y el análisis factorial. El ACP se utiliza a menudo en la predicción, pero no es tan útil para la explicación. El AF implica el paso adicional de la rotación, que se realiza para mejorar la interpretación (y, por tanto, la explicación). Hay una bonito post hoy en el blog de Galit Shmueli sobre esto .

Actualización: un tercer caso se da en las series temporales cuando una variable puede ser una variable explicativa importante pero no está disponible para el futuro. Por ejemplo, los préstamos a la vivienda pueden estar fuertemente relacionados con el PIB, pero eso no sirve de mucho para predecir los futuros préstamos a la vivienda a menos que también tengamos buenas predicciones del PIB.

17voto

bdonlan Puntos 508

Aunque a algunas personas les resulta más fácil pensar en la distinción en términos del modelo/algoritmo utilizado (por ejemplo, redes neuronales=predicción), ese es sólo un aspecto particular de la distinción explicar/predecir. Aquí hay un paquete de diapositivas que utilizo en mi curso de minería de datos para enseñar la regresión lineal desde ambos ángulos. Incluso con la regresión lineal por sí sola y con este pequeño ejemplo surgen varias cuestiones que conducen a diferentes modelos para los objetivos explicativos frente a los predictivos (elección de variables, selección de variables, medidas de rendimiento, etc.)

Galit

13voto

Eric Davis Puntos 1542

Ejemplo: Un ejemplo clásico que he visto es en el contexto de la predicción del rendimiento humano. La autoeficacia (es decir, el grado en que una persona cree que puede realizar bien una tarea) suele ser un fuerte predictor del rendimiento de la tarea. Así, si se pone la autoeficacia en una regresión múltiple junto con otras variables como la inteligencia y el grado de experiencia previa, a menudo se encuentra que la autoeficacia es un fuerte predictor.

Esto ha llevado a algunos investigadores a sugerir que la autoeficacia es la causa del rendimiento en las tareas. Y que las intervenciones eficaces son las que se centran en aumentar el sentimiento de autoeficacia de una persona.

Sin embargo, el modelo teórico alternativo considera que la autoeficacia es en gran medida una consecuencia del desempeño de la tarea. Es decir, si eres bueno, lo sabrás. En este marco, las intervenciones deben centrarse en aumentar la competencia real y no la percibida.

Por tanto, incluir una variable como la autoeficacia podría aumentar la predicción, pero suponiendo que se adopte el modelo de autoeficacia como consecuencia, no debería incluirse como predictor si el objetivo del modelo es dilucidar los procesos causales que influyen en el rendimiento.

Por supuesto, esto plantea la cuestión de cómo desarrollar y validar un modelo teórico causal. Esto depende claramente de múltiples estudios, idealmente con alguna manipulación experimental, y de un argumento coherente sobre los procesos dinámicos.

Proximal versus distal : He visto problemas similares cuando los investigadores se interesan por los efectos de las causas distales y proximales. Las causas proximales tienden a predecir mejor que las causas distales. Sin embargo, el interés teórico puede estar en comprender las formas en que operan las causas distales y las proximales.

Problema de selección de variables : Por último, un gran problema en la investigación en ciencias sociales es el de la selección de variables. En cualquier estudio, hay un número infinito de variables que podrían haberse medido pero no lo fueron. Por lo tanto, la interpretación de los modelos debe tener en cuenta las implicaciones de esto al hacer interpretaciones teóricas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X