4 votos

¿Por qué $\overline{y} = \hat \beta_{0} + \hat \beta_{1} \overline{x}$ en la regresión lineal simple?

Hoy, una vez más, he observado que la variable dependiente se predice como su media cuando la variable independiente se fija en su media en la regresión lineal simple.

  1. Dejemos que $(\hat{y},\hat{x})$ sean vectores y $(\overline{y},\overline{x})$ denotan sus medios. ¿Se cumple la ecuación del título en general para una regresión lineal simple de $\hat{y}$ en $\hat{x}$ ?

  2. ¿Cuáles son las razones matemáticas para ello?

EDIT: La razón por la que pregunto es porque he leído (Willett & Stampfer. Total energy intake: Implications for epidemiologic analyses. Am J Epidemiol 1986;124:17-27) que para ajustar la ingesta de un determinado nutriente a la ingesta calórica total, se pueden tomar los residuos de una regresión lineal simple con ese nutriente como VD y la ingesta calórica total como IV y añadir la "ingesta de nutrientes esperada para una persona con una ingesta calórica media" (por lo que los valores obtenidos no están centrados en 0 y a menudo son negativos, lo cual es extraño para algo que físicamente debería ser estrictamente no negativo).

Así que la pregunta es la siguiente: ¿Por qué los autores no dijeron más simplemente que había que añadir la ingesta media de nutrientes? Parece impar que estos dos investigadores tan distinguidos no sean conscientes de esta equivalencia.

enter image description here

7voto

farzad Puntos 4180

Una vez que haya evaluado las estimaciones $\hat{\beta}_0$ y $\hat{\beta}_1$ si se tiene el valor de un nuevo predictor $x_{n+1}$ la respuesta prevista es $\hat{\beta}_0+\hat{\beta}_1 x_{n+1}$ . En la regresión OLS, sabemos que $\hat{\beta}_0=\bar{y}-\hat{\beta}_1\,\bar{x}$ . Por lo tanto, cuando $x_{n+1}$ es igual a $\bar{x}$ la respuesta prevista es $$ \hat{\beta}_0+\hat{\beta}_1\,\bar{x} = \bar{y}-\hat{\beta_1}\,\bar{x}+\hat{\beta_1}\,\bar{x}=\bar{y} \, . $$

-2voto

mat_geek Puntos 1367

El punto $[E(X), E(Y)]$ siempre cae en la línea de regresión de mínimos cuadrados cuando se ajusta $Y=AX+B$ . donde por $E(X)$ y $E(Y)$ nos referimos a las medias de las muestras. En su notación debería ser $E(Y\vert X=E(X))=E(Y)$ . Esta es una propiedad interesante de la estimación por mínimos cuadrados. Dado $Y_i=A X_i + B +e_i$ es el modelo con $i=1,2,...,n$ .

Las estimaciones por mínimos cuadrados de A y B se obtienen tomando las derivadas parciales de $\sum e_i^2$ con respecto a $A$ y $B$ y poniéndolos a cero. Esto conduce a dos ecuaciones en dos incógnitas y una de las ecuaciones se reduce a $Y_b=A X_b +B$ , donde $X_b$ y $Y_b$ son las medias muestrales de $X$ y $Y$ respectivamente.

Para responder a la nueva pregunta de la edición: No se suma la ingesta nutricional media global de cada sujeto porque su ingesta calórica total no siempre está en la ingesta calórica total media del sujeto individual. Todo lo que dijimos con el primer resultado fue que si su ingesta calórica total está en la media de la muestra entonces la ingesta nutricional esperada estaría en la media de la muestra. Pero los autores quieren ajustar a cada individuo en función de su propia ingesta calórica total.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X