Processing math: 100%

5 votos

¿Por qué no el de regresión lineal coeficiente no sólo el promedio del vector de puntos de datos?

Estoy teniendo problemas de forma intuitiva comprensión de la corrección de la fórmula para calcular el coeficiente de la regresión de la línea de regresión lineal.

Sé que la fórmula es

Ni=1(xiˉx)(yiˉy)Ni=1(xiˉx)2

Tengo en algún punto del pasado a través de la prueba y mecánicamente entendido. Pero, intuitivamente todavía no veo por qué la fórmula anterior se calcula la correcta coeficiente. De hecho, intuitivamente me han dicho, el coeficiente de la recta de regresión debe ser la proporción promedio de yi y xi, (xi,yi) siendo los puntos de datos.

Escribí un pequeño Jupyter-Cuaderno para ilustrar esto. Me encontré con que mi enfoque ingenuo no es completamente equivocado, y de hecho converge hacia el valor correcto con más datos, si los datos se dispersa en un intervalo fijo.

Así que... ¿qué es los puntos críticos que mi enfoque ingenuo se pone mal y lo que es la intuitiva explicación de por qué la fórmula correcta funciona mejor?

6voto

JiminyCricket Puntos 143

Continuando con sus supuestos simplificadores, supongamos por simplicidad que ˉx=0ˉy=0, por lo que la solución estándar es

Ni=1xiyiNi=1x2i.

Podemos escribir esto como

Ni=1x2iyixiNi=1x2i.

Así que en realidad es una media ponderada de los coeficientes de yixi, con pesos x2i, no tan diferente de su propuesta de solución como tal vez pensaba que era.

La pregunta sigue siendo ¿por qué los pesos x2i en la solución estándar son mejores que la igualdad de los pesos que usted proponga. Esto es porque bajo el estándar de la suposición de que el yi todos tienen el mismo aditivo de error, los errores de los valores cerca del origen se amplifica cuando se toma la relación de yixi con valores pequeños de a xi. Es intuitivamente claro que cuando cambias de un punto de datos cerca de el origen por un determinado error vertical, que cambia la relación de más que si lo haces con un punto de datos más lejos; de modo que los coeficientes de pequeño xi son más inciertas y debe llevar menos peso.

De hecho, esto puede ser dicho de forma más cuantitativa. Si usted realiza una regresión lineal con diferentes barras de error para los diferentes puntos de datos, se encuentra que cada punto de datos debe ser ponderado con la inversa de su varianza, es decir, la inversa del cuadrado de su desviación estándar. La formación de la relación de yixi amplifica el error en yi por un factor de 1xi, por lo que si suponemos que los errores en la yi son todos el mismo, los errores en los coeficientes son proporcionales a 1xi, por lo que el peso debe ser proporcional a la inversa de los cuadrados de los errores, que es, a x2i. Así que la fórmula estándar es en realidad su fórmula, debidamente ponderado.

1voto

BruceET Puntos 7117

La correlación es simétrica: La correlación entre el X Y es la misma que la correlación entre el Y X.

La regresión no es simétrica. Para tomar la regresión lineal simple como un ejemplo, la línea de regresión de Y x puede ser visto como la mejor manera de modelo (tal vez con el tiempo predecir) los valores de Y para valores dados de x en el conjunto de datos. (O en el caso de la predicción, para los nuevos valores de x no en el conjunto de datos usado para calcular la línea de regresión.) El modelo de regresión es Yi=β0+β1xi+ei, dondeei, de manera independiente, distribuido Norm(0,σ).

La derivación vieron involucrados encontrar el intercepto ˆβ0 y pendiente ˆβ1 que minimizar ni=1(YiˆYi)2, donde ˆYi=ˆβ0+ˆβ1xi. (La línea de regresión es a menudo llamado el 'de mínimos cuadrados' línea).

Si usted invertir los roles de Yi xi (atribuir los errores a la X's en lugar de y's) para encontrar la regresión de X y, normalmente obtener una línea de regresión. El modelo de regresión sería Xi=β0+β1yi+ei, dondeei, de manera independiente, distribuido Norm(0,σ). [de los números Primos () indican alternativa constantes, no diferenciación.]

En términos de unidades: una perspectiva ligeramente diferente, considerar el modelado de pesos de los colegiados nadadores (Yi) en kg en términos de sus alturas (xi) en cm. A continuación, las unidades de β0 sería kg, y las unidades de β1 sería kg/cm. Uno puede mostrar que ˆβ1=rSy/Sx, cuando la muestra de correlación r no tiene unidades, las unidades de la desviación estándar de la muestra Sy kg, y las unidades de la desviación estándar de la muestra Sx cm.

Por el contrario, si fueron modelado de alturas en términos de pesos, entonces el unidades de ˆβ1 cm/kg. Pero ˆβ11/ˆβ1, unless r=1,, de modo que los datos se ajustan a una línea recta , precisamente.

1voto

Wings Puntos 32

Es más un comentario que una respuesta, pero sigue siendo tal vez el ilustrativos. Lo que usted ha observado en su simulación es el hecho de que su estimador es imparcial y consistente. Es decir, de un modelo que es yi=βxi+ϵi dondeE[ϵi|X]=0, con una varianza finita, el estimador de 1nni=1yixi, es, básicamente, un legítimo estimador de β. I. e., tenga en cuenta que E[1nni=1yixi,|X]=1nβxixi=βnn=β. Lo que significa que, intuitivamente, que la "masa", en el centro de la estimación de la línea en la línea actual. Y, por el WLLN 1nni=1yixipE[YX]=β, para n. Esto es lo que se observa por el aumento del número de observaciones de la estimación de la línea que se acercaba a la línea real. Entonces, ¿por qué el uso de la "unintiuitive" estimador de MCO? La respuesta a esta pregunta que usted ya tiene en posts anteriores. En pocas palabras, a pesar de su estimador es legítimo estimador de, no es la óptima. Cuando el común de optimaility criterios es el error cuadrático, el ni=1xix2iyi
es la mejor (lineal insesgada) estimador de β.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X