5 votos

Colinealidad en regresión multivariante con enormes cantidades de datos

Tomemos el siguiente ejemplo. Deseo para predecir el rendimiento físico como una función de la altura y el peso. Ya sé que el peso afecta negativamente el rendimiento. La altura también afecta negativamente el rendimiento, pero no sé si esto es sólo por el peso, o si hay una correlación positiva entre la altura y el rendimiento cuando se prescinda de la correlación de peso. Así que, yo medida de la estatura y el peso de miles de personas, y medir su desempeño. Entonces me desempeño del modelo con multivariante de regresión: p = (a * altura) + (b * peso). La estimación de los coeficientes a y b de llegar a ser de 0.2 y -1, respectivamente, cuando el uso de "película" en R. El individuo significados de estos coeficientes estimados son muy altos, de acuerdo a las pruebas " t " (como se muestra en una tabla cuando se utiliza el comando R "resumen" de un modelo lineal hizo con el comando "lm"), y su std. los errores son muy bajos. Yo por lo tanto a la conclusión de que la altura se correlaciona positivamente con el rendimiento cuando se prescinda de los efectos negativos de peso. Cuando se esta conclusión un error?

Para decirlo en otras palabras, si tengo un montón de datos y la sexual. de error es muy baja para la estimación de los coeficientes de ambas variables correlacionadas (decir x_1 y x_2) en la regresión resumen producido por el comando R "resumen", ¿hay alguna razón (en general) ¿por qué me debe desconfiar de los coeficientes estimados para x_1 y x_2? I. e. puede la colinealidad significa que estos coeficientes estimados no reflejan necesariamente las de los coeficientes reales, incluso a pesar de los errores estándar se muestra por la regresión resumen son muy bajos?

1voto

Datoraki Puntos 121

De acuerdo a Wikipedia, que a su vez se refiere a Chatterjee, S.; Hadi, A. S.; Precio, B. (2000). Análisis de regresión por Ejemplo (Tercera ed.). John Wiley and Sons. ISBN 0-471-31946-5.,

Tanto tiempo en el fondo, la especificación es correcta, la multicolinealidad en realidad, no sesgo de los resultados; lo que produce grandes errores estándar en las variables independientes.

Por lo tanto, utilizando los coeficientes inferirse a partir de la correlación de las variables y la interpretación de las mismas no debería ser un problema tan largo como los errores estándar son bajos y los coeficientes no son interpretadas fuera del contexto en que se infiere (utilizando los coeficientes sólo tiene sentido si ambos coeficientes se utilizan juntos). Por lo tanto, no hay ningún problema con la conclusión obtenida en el ejemplo de la pregunta.

0voto

Jack Puntos 18

Como escribió PeterFlom, puede comprobar relación de min y max valores propios en la matriz de diseño que le dice más. Si CI es muy grande, entonces significa que invertir t (X) X causará problemas computacionales y las estimaciones no son muy confiables...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X