53 votos

¿Por qué necesitamos regresión multivariada (en lugar de un montón de regresiones univariadas)?

Acabo de hojear este maravilloso libro: Análisis estadístico multivariado aplicado de Johnson y Wichern. La ironía es que aún no entiendo la motivación para usar modelos de regresión multivariados en lugar de modelos de regresión univariados separados. Leí publicaciones de stats.statexchange 1 y 2 que explican (a) la diferencia entre regresión múltiple y regresión multivariada y (b) la interpretación de los resultados de la regresión multivariada, pero no logro comprender el uso de modelos estadísticos multivariados a pesar de toda la información que encuentro en línea sobre ellos.

Mis preguntas son:

  1. ¿Por qué necesitamos regresión multivariada? ¿Cuál es la ventaja de considerar los resultados simultáneamente en lugar de individualmente, para sacar inferencias?
  2. ¿Cuándo utilizar modelos multivariados y cuándo utilizar múltiples modelos univariados (para múltiples resultados)?
  3. Tomemos un ejemplo dado en el sitio de UCLA con tres resultados: locus de control, autoconcepto y motivación. En relación con 1. y 2., ¿podemos comparar el análisis cuando realizamos tres regresiones múltiples univariadas versus una regresión múltiple multivariada? ¿Cómo justificar una sobre la otra?
  4. No he encontrado muchos artículos académicos que utilicen modelos estadísticos multivariados. ¿Es esto debido a la suposición de normalidad multivariada, la complejidad del ajuste/interpretación del modelo u alguna otra razón específica?

23 votos

Separar modelos univariados ignorar correlaciones.

4 votos

Sí, hay muchos fenómenos en el mundo que no se pueden modelar con variables aleatorias independientes.

4 votos

@jwimberley ¿Podrías ampliar las consecuencias de ignorar estas correlaciones en una respuesta?

1voto

Maddenker Puntos 162

Mi respuesta depende de lo que desees hacer con la regresión. Si estás intentando comparar el efecto de diferentes coeficientes, entonces la regresión puede que no sea la herramienta adecuada para ti. Si estás intentando hacer predicciones utilizando diferentes coeficientes que has demostrado que son independientes, entonces tal vez debas usar regresión múltiple.

¿Están correlacionados los factores? Si es así, una regresión multivariante puede darte un mal modelo y deberías usar un método como los VIF o la regresión de ridge para eliminar las correlaciones cruzadas. No deberías comparar coeficientes hasta que los factores cruzados correlacionados sean eliminados. Hacerlo llevará al desastre. Si no están cruzados correlacionados, entonces los coeficientes multivariados deberían ser tan comparables como los coeficientes univariados, y esto no debería ser sorprendente.

El resultado también podría depender del paquete de software que estés utilizando. No estoy bromeando. Diferentes paquetes de software tienen métodos diferentes para calcular la regresión multivariada. (¿No me crees? Observa cómo el paquete estándar de regresión R calcula R2 con y sin forzar el origen como la intersección. Deberías quedarte sorprendido.) Necesitas entender cómo el paquete de software está realizando la regresión. ¿Cómo está compensando las correlaciones cruzadas? ¿Está realizando una solución secuencial o de matriz? He tenido frustraciones con esto en el pasado. Sugiero realizar tu regresión múltiple en diferentes paquetes de software y ver qué obtienes.

Otro buen ejemplo aquí:

Observa que en esta ecuación, los coeficientes de regresión (o coeficientes B) representan las contribuciones independientes de cada variable independiente a la predicción de la variable dependiente. Otra forma de expresar este hecho es decir que, por ejemplo, la variable X1 está correlacionada con la variable Y, después de controlar todas las otras variables independientes. Este tipo de correlación también se conoce como correlación parcial (este término fue usado por primera vez por Yule, 1907). Quizás el siguiente ejemplo aclare este tema. Probablemente encontrarías una correlación negativa significativa entre la longitud del cabello y la estatura en la población (es decir, las personas bajas tienen cabello más largo). Al principio esto puede parecer extraño; sin embargo, si añadiéramos la variable Género a la ecuación de regresión múltiple, esta correlación probablemente desaparecería. Esto se debe a que las mujeres, en promedio, tienen el cabello más largo que los hombres; también son más bajas en promedio que los hombres. Así, después de eliminar esta diferencia de género ingresando el Género en la ecuación, la relación entre la longitud del cabello y la estatura desaparece porque la longitud del cabello no hace ninguna contribución única a la predicción de la estatura, más allá de lo que comparte en la predicción con la variable Género. Dicho de otra manera, después de controlar por la variable Género, la correlación parcial entre la longitud del cabello y la estatura es cero. http://www.statsoft.com/Textbook/Multiple-Regression

Existen tantas trampas al usar regresión múltiple que intento evitar usarla. Si decidieras usarla, ten mucho cuidado con los resultados y revísalos dos veces. Siempre debes graficar los datos visualmente para verificar la correlación. (Solo porque tu programa de software dijo que no había correlación, no significa que no la haya. Correlaciones Interesantes) Siempre verifica tus resultados utilizando el sentido común. Si un factor muestra una fuerte correlación en una regresión univariante, pero ninguna en una multivariante, necesitas entender por qué antes de compartir los resultados (el factor de género mencionado anteriormente es un buen ejemplo).

1 votos

"Echa un vistazo a cómo el paquete estándar de regresión R calcula R2 con y sin forzar el origen como la intersección." Si bien puede ser potencialmente confuso para aquellos que no lo esperan, lo que hace R en esa situación es el enfoque estándar que se implementa en literalmente cada paquete de software estadístico donde he comprobado esto.

0 votos

Interesante. He visto trabajos publicados de analistas que no entendían esta diferencia. ¿Has visto una buena discusión en línea sobre el tema? ¿Debería presentar una nueva pregunta a CV al respecto?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X