5 votos

¿Por qué no el de regresión lineal coeficiente no sólo el promedio del vector de puntos de datos?

Estoy teniendo problemas de forma intuitiva comprensión de la corrección de la fórmula para calcular el coeficiente de la regresión de la línea de regresión lineal.

Sé que la fórmula es

$$\frac{\sum_{i=1}^N (x_i - \bar{x}) (y_i - \bar{y})}{\sum_{i=1}^N(x_i - \bar{x})^2}$$

Tengo en algún punto del pasado a través de la prueba y mecánicamente entendido. Pero, intuitivamente todavía no veo por qué la fórmula anterior se calcula la correcta coeficiente. De hecho, intuitivamente me han dicho, el coeficiente de la recta de regresión debe ser la proporción promedio de $y_i$ y $x_i$, $(x_i, y_i)$ siendo los puntos de datos.

Escribí un pequeño Jupyter-Cuaderno para ilustrar esto. Me encontré con que mi enfoque ingenuo no es completamente equivocado, y de hecho converge hacia el valor correcto con más datos, si los datos se dispersa en un intervalo fijo.

Así que... ¿qué es los puntos críticos que mi enfoque ingenuo se pone mal y lo que es la intuitiva explicación de por qué la fórmula correcta funciona mejor?

6voto

JiminyCricket Puntos 143

Continuando con sus supuestos simplificadores, supongamos por simplicidad que $\bar x=0$$\bar y=0$, por lo que la solución estándar es

$$ \frac{\sum_{i=1}^N x_iy_i}{\sum_{i=1}^Nx_i^2}\;. $$

Podemos escribir esto como

$$ \frac{\sum_{i=1}^N x_i^2\frac{y_i}{x_i}}{\sum_{i=1}^Nx_i^2}\;. $$

Así que en realidad es una media ponderada de los coeficientes de $\frac{y_i}{x_i}$, con pesos $x_i^2$, no tan diferente de su propuesta de solución como tal vez pensaba que era.

La pregunta sigue siendo ¿por qué los pesos $x_i^2$ en la solución estándar son mejores que la igualdad de los pesos que usted proponga. Esto es porque bajo el estándar de la suposición de que el $y_i$ todos tienen el mismo aditivo de error, los errores de los valores cerca del origen se amplifica cuando se toma la relación de $\frac{y_i}{x_i}$ con valores pequeños de a $x_i$. Es intuitivamente claro que cuando cambias de un punto de datos cerca de el origen por un determinado error vertical, que cambia la relación de más que si lo haces con un punto de datos más lejos; de modo que los coeficientes de pequeño $x_i$ son más inciertas y debe llevar menos peso.

De hecho, esto puede ser dicho de forma más cuantitativa. Si usted realiza una regresión lineal con diferentes barras de error para los diferentes puntos de datos, se encuentra que cada punto de datos debe ser ponderado con la inversa de su varianza, es decir, la inversa del cuadrado de su desviación estándar. La formación de la relación de $\frac{y_i}{x_i}$ amplifica el error en $y_i$ por un factor de $\frac1{x_i}$, por lo que si suponemos que los errores en la $y_i$ son todos el mismo, los errores en los coeficientes son proporcionales a $\frac1{x_i}$, por lo que el peso debe ser proporcional a la inversa de los cuadrados de los errores, que es, a $x_i^2$. Así que la fórmula estándar es en realidad su fórmula, debidamente ponderado.

1voto

BruceET Puntos 7117

La correlación es simétrica: La correlación entre el $X$ $Y$ es la misma que la correlación entre el $Y$ $X.$

La regresión no es simétrica. Para tomar la regresión lineal simple como un ejemplo, la línea de regresión de $Y$ $x$ puede ser visto como la mejor manera de modelo (tal vez con el tiempo predecir) los valores de $Y$ para valores dados de $x$ en el conjunto de datos. (O en el caso de la predicción, para los nuevos valores de $x$ no en el conjunto de datos usado para calcular la línea de regresión.) El modelo de regresión es $Y_i = \beta_0 + \beta_1 x_i + e_i,$ donde$e_i$, de manera independiente, distribuido $\mathsf{Norm}(0, \sigma).$

La derivación vieron involucrados encontrar el intercepto $\hat \beta_0$ y pendiente $\hat \beta_1$ que minimizar $\sum_{i=1}^n (Y_i - \hat Y_i)^2,$ donde $\hat Y_i = \hat \beta_0 + \hat\beta_1 x_i.$ (La línea de regresión es a menudo llamado el 'de mínimos cuadrados' línea).

Si usted invertir los roles de $Y_i$ $x_i$ (atribuir los errores a la $X$'s en lugar de $y$'s) para encontrar la regresión de $X$ $y,$ normalmente obtener una línea de regresión. El modelo de regresión sería $X_i = \beta_0^\prime + \beta_1^\prime y_i + e_i^\prime,$ donde$e_i^\prime$, de manera independiente, distribuido $\mathsf{Norm}(0, \sigma^\prime).$ [de los números Primos (${}^\prime$) indican alternativa constantes, no diferenciación.]

En términos de unidades: una perspectiva ligeramente diferente, considerar el modelado de pesos de los colegiados nadadores $(Y_i)$ en kg en términos de sus alturas $(x_i)$ en cm. A continuación, las unidades de $\beta_0$ sería kg, y las unidades de $\beta_1$ sería kg/cm. Uno puede mostrar que $\hat \beta_1 = rS_y/S_x,$ cuando la muestra de correlación $r$ no tiene unidades, las unidades de la desviación estándar de la muestra $S_y$ kg, y las unidades de la desviación estándar de la muestra $S_x$ cm.

Por el contrario, si fueron modelado de alturas en términos de pesos, entonces el unidades de $\hat \beta_1^\prime$ cm/kg. Pero $\hat\beta_1^\prime \ne 1/\hat\beta_1,$ unless $r = 1,$, de modo que los datos se ajustan a una línea recta , precisamente.

1voto

Wings Puntos 32

Es más un comentario que una respuesta, pero sigue siendo tal vez el ilustrativos. Lo que usted ha observado en su simulación es el hecho de que su estimador es imparcial y consistente. Es decir, de un modelo que es $y_i = \beta x_i + \epsilon_i$ donde$\mathbb{E}[\epsilon_i|X]=0$, con una varianza finita, el estimador de $$ \frac{1}{n}\sum_{i=1}^n\frac{y_i}{x_i}, $$ es, básicamente, un legítimo estimador de $\beta$. I. e., tenga en cuenta que $$ \mathbb{E}\left[\frac{1}{n}\sum_{i=1}^n\frac{y_i}{x_i},|X\right]=\frac{1}{n}\sum\frac{\beta x_i}{x_i} = \beta \frac{n}{n} = \beta. $$ Lo que significa que, intuitivamente, que la "masa", en el centro de la estimación de la línea en la línea actual. Y, por el WLLN $$ \frac{1}{n}\sum_{i=1}^n\frac{y_i}{x_i} \xrightarrow{p}\mathbb{E}\left[\frac{Y}{X}\right] = \beta, $$ para $n \to \infty$. Esto es lo que se observa por el aumento del número de observaciones de la estimación de la línea que se acercaba a la línea real. Entonces, ¿por qué el uso de la "unintiuitive" estimador de MCO? La respuesta a esta pregunta que usted ya tiene en posts anteriores. En pocas palabras, a pesar de su estimador es legítimo estimador de, no es la óptima. Cuando el común de optimaility criterios es el error cuadrático, el $$ \sum_{i=1}^n\frac{x_i}{\sum x_i ^ 2}y_i $$
es la mejor (lineal insesgada) estimador de $\beta$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X