2 votos

Modelo lineal de regresión sin término de error

Tengo este modelo lineal de una regresión:

$Y_i$ = $\beta_1X_{i1}$ + ... + $\beta_mX_{im}$ + $\epsilon_i$

La representación matricial es:

$Y$ = $X\beta$ + $\epsilon$

En muchos lugares como Wikipedia dicen que $Y$ = $X\beta$ es un sistema sobredeterminado (de hecho lo es) y luego aplican los mínimos cuadrados.

Mi pregunta es: ¿por qué están tratando de resolver $Y$ = $X\beta$ ? El sistema original era $Y$ = $X\beta$ + $\epsilon$ . ¿Por qué ignoran el término de error $\epsilon$ ?

Mi opinión es que $Y$ es el real valor y no tratan de resolver $Y = X\beta$ pero $\hat{Y} = X\beta$ donde $\hat{Y} = Y - \epsilon$ es el observado valor, pero no pude encontrar esto en ningún libro o fuente confiable así que tal vez estoy equivocado.

Gracias.

1voto

Yuri Negometyanov Puntos 593

La solución de mínimos cuadrados proporciona el valor de $\overrightarrow\beta$ que minimiza la norma de $\overrightarrow\varepsilon$ sobre los datos estadísticos dados. De esta forma se tiene en cuenta $\overrightarrow \varepsilon$ y parece el óptimo si los errores $\varepsilon_i$ son valores aleatorios independientes, donde cada uno de ellos satisface a la ley de distribución aleatoria normal con expectativa cero y desviación estándar $\sigma$ , $$\varphi_i(\varepsilon_i) = \dfrac1{\sigma\sqrt{2\pi}}e^{^{\Large-\frac{\varepsilon_i^2}{2\sigma^2}}}.$$

A partir de las condiciones condideradas debe que la función de densidad de la distribución para las estadísticas obtenidas sea igual a la producción

$$\varphi(\overrightarrow\varepsilon) = \dfrac1{\left(\sigma\sqrt{2\pi}\right)^k}e^{^{\Large-\frac{\sum\varepsilon_i^2}{2\sigma^2}}},\tag1$$ donde el mayor valor de esta función se corresponde con la menor suma de los errores al cuadrado y se supone $\overrightarrow \varepsilon = \overrightarrow {Y - XB}$ .

Además, el modelo de los errores puede presentarse en el área espectral como el "ruido blanco" con la densidad del espectro de potencia constante.

Además, la ecuación $(1)$ puede transformarse en una ley de distribución posteriora (enfoque de Fisher).

La tarea de identificación de la ley de distribución es muy dura. No he cumplido con esta tarea para el modelo AR en absoluto.

1voto

1524 Puntos 119

Supongamos que hacemos algún experimento con $m$ condiciones experimentales $n$ tiempos. $Y_i$ es el resultado de la $i$ experimento y $X_{i1},\dots,X_{im}$ es la lista de condiciones experimentales del $i$ experimento. Escribamos $X_i = (X_{i1}, \dots, X_{im})$ . Entonces los datos que observamos son $(Y_i, X_i),\,i=1\dots,n$ . Nótese que observamos el verdadero resultado experimental y las verdaderas condiciones experimentales.

Dados nuestros datos, podemos preguntarnos: ¿En qué medida puede describirse nuestro resultado experimental como una función lineal de las condiciones experimentales? Podemos formular esta pregunta como: ¿Cómo de cerca podemos resolver el siguiente sistema de $n$ ¿Ecuaciones? $$Y_i = X_i\tilde \beta, \quad i=1\dots,n.$$ En notación matricial, el sistema es $$Y = X \tilde\beta, \tag{1}$$ donde $Y=(Y_1,\dots,Y_n)^T$ y $X$ es la matriz cuya $i$ a fila es $X_i$ . Tenga en cuenta que $(1)$ es exactamente el sistema de ecuaciones que te estás preguntando.

Si podemos encontrar una solución $\beta$ a $(1)$ entonces todo está bien. Sin embargo, lo normal es que no sea así. En su lugar, podemos intentar encontrar un Aproximadamente solución: un vector de parámetros que no resuelve exactamente $(1)$ pero está "cerca" de resolverlo. Una forma de medir lo cerca que está algún vector de parámetros $\beta$ se trata de resolver $(1)$ es definir los residuos $$\varepsilon_i = Y_i - X_i\beta.\tag{2}$$ Entonces, por construcción $Y_i = X_i\beta + \varepsilon_i$ es válida para todos los $i$ . Tenga en cuenta que $\beta$ es una solución a $(1)$ si, y sólo si $\varepsilon_i =0$ es válida para todos los $i$ . Intuitivamente, $\beta$ está cerca de resolver $(1)$ si el $\varepsilon_i$ son "cercanas a cero". Una forma de medir esta proximidad es mediante la suma de los residuos al cuadrado $$\varepsilon_1^2 + \dots + \varepsilon_n^2,$$ donde $\varepsilon_i$ se define por $(2)$ . Cuanto menor sea la suma de los residuos al cuadrado, más cerca estará $\beta$ llega a ser una solución a $(1)$ . El vector de parámetros que consigue la menor suma de errores al cuadrado es precisamente el estimador de mínimos cuadrados ordinarios $$\hat \beta = (X^TX)^{-1}X^TY.$$

Dado $\hat \beta$ como solución aproximada a $(1)$ podemos definir $\hat Y_i = X_i\hat \beta$ y $$\hat \varepsilon_i = Y_i - X_i\hat \beta = Y_i - \hat Y_i.$$ Aquí, $\hat \varepsilon_i$ mide la proximidad de $\hat \beta$ llega a resolver el $i$ La ecuación en $(1)$ .

Hay otras formas de motivar a los mínimos cuadrados ordinarios, pero si te preguntas qué papel juega el sistema $Y = X \tilde\beta$ juega entonces en mi opinión el enfoque de "solución aproximada a un sistema de ecuaciones" es el que hay que pensar. Un aspecto agradable de este enfoque es que muestra que la regresión lineal puede ser motivada sin ninguna referencia a la aleatoriedad.

Ver ici para otra explicación de este enfoque. Para una motivación ligeramente diferente de la regresión lineal, véanse, por ejemplo, las páginas 44-45 ici .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X