6 votos

¿Cómo se forma un subespacio de regresión lineal?

En Elementos de aprendizaje estadístico los autores señalan que la regresión lineal se puede reescribir a partir de

$$ \hat{Y} = \hat{\beta}_0 + \sum_{j = 1}^p X_j\hat{\beta}_j$$

a

$$ \hat{Y} = X^T \hat{\beta} $$

incluyendo $\hat{\beta}_0$ en el vector de coeficientes e incluyendo una columna de $1$ s en $X$ . A continuación, el autor señala que $(X,\hat{Y})$ forman un subespacio en el $p+1$ espacio dimensional de entrada-salida.

No veo por qué esto es cierto. Entiendo los axiomas de los Espacios Vectoriales y Subespacios, pero no entiendo el argumento que los autores están haciendo. ¿Podría alguien arrojar algo de luz?

4voto

jldugger Puntos 7490

Interpretación

El sentido en el que " $(X,\hat Y)$ formar un subespacio" es que el $p+1$ columnas de $X$ (vamos a llamarlos $X_0, X_1, \ldots, X_{p}$ ), junto con el vector $\hat Y$ , generar un subespacio del espacio generado por las columnas de $X$ solo. Esta afirmación encierra varias sutilezas:

  1. La dimensión de este subespacio no tiene por qué ser exactamente $p+1$ aunque $X$ tiene $p+1$ columnas. Puede ser tan pequeño como $1$ (lo que ocurre cuando no hay ningún regresor o cuando todos los regresores son idénticos a cero).

  2. Las columnas de $X$ y $Y$ pueden ser elementos de espacios vectoriales de dimensión infinita, como los espacios de funciones, que incluyen los espacios de variables aleatorias. Esta poderosa generalización de la regresión lineal nos llega gratis, sin necesidad de conceptos o cálculos adicionales.

  3. No importa cuál sea el campo de escalares. Por lo tanto, este resultado se mantiene incluso cuando se permite el $\hat \beta$ para ser números complejos. Un resultado comparable es válido -teniendo cuidado de preservar el orden de la multiplicación en cada caso- incluso para campos no conmutativos, como los cuaterniones.

  4. Los regresores determinan el subespacio, pero el subespacio corresponde a muchas opciones diferentes de regresores. Lo único que importa es el subespacio, porque la regresión lineal encuentra la proyección (única) de $Y$ en este subespacio. Por lo tanto, al resolver cualquier problema de regresión lineal, debemos pensar en los regresores únicamente en términos del subespacio que generan y no como vectores individuales. Este punto de vista simplifica las discusiones sobre la identificabilidad.

Qué significa la afirmación

Por definición, siempre que $E\subset V$ es un subconjunto de un espacio vectorial, el subespacio que genera consiste en todos los vectores que pueden escribirse como combinaciones lineales finitas de elementos de $E$ :

$$\langle E \rangle = \{\alpha_1 e_1 + \alpha_2 e_2 + \cdots \alpha_k e_k\mid e_1,\ldots,e_k\in E\}.$$

Cuando $E\subset F$ es evidente que $\langle E \rangle \subset \langle F \rangle$ (como subespacios ). Escribir $E$ para las columnas de $X$ y $F$ para esas columnas junto con $Y$ ( $F = E \cup \{\hat Y\}$ ), podemos apreciar el contenido de la afirmación citada: afirma que la inclusión va por otro lado, $\langle F \rangle \subset \langle E \rangle$ (de lo que se deduce que estos subespacios son iguales).

La idea de la prueba es sencilla: desde $\hat Y$ es, por construcción, ya en $\langle E \rangle$ cualquier combinación lineal que incluya $Y$ puede reescribirse como una combinación lineal que incluye elementos de $E$ solo.

Una prueba detallada

Las pruebas rigurosas y detalladas pueden ser útiles para los que acaban de aprender sobre los espacios vectoriales. Así es como se podría proceder.

Dejemos que $f\in \langle F \rangle$ . Pretendemos mostrar $f\in \langle E \rangle$ . Por definición, existe $f_1, \ldots, f_k\in F$ y escalares $\phi_1, \ldots, \phi_k$ para lo cual

$$f = \phi_1 f_1 + \phi_2 f_2 + \cdots \phi_k f_k.$$

Si ninguno de los $f_i$ es igual a $\hat Y$ Esto muestra $f$ como una combinación lineal de $E$ y hemos terminado. De lo contrario, cambiando el orden de adición (como lo permiten los axiomas del espacio vectorial) podemos poner todas las copias de $\hat Y$ al final, que asciende a $f_l=f_{l+1}=\cdots=f_k=\hat Y$ para algunos $l$ entre $1$ y $k$ incluso. Aplicar el axioma distributivo para combinar todos los coeficientes de $\hat Y$ , ampliar $\hat Y = \hat \beta_0 X_0 + \cdots \hat \beta_p X_p$ en términos de elementos de $E$ y aplicar de nuevo el axioma distributivo. Para abreviar, escriba $\phi_l+\phi_{l+1}+\cdots+\phi_k = \gamma$ :

$$\eqalign{ f &= \phi_1 f_1 + \cdots \phi_{l-1} f_{l-1} + (\phi_l+\phi_{l+1}+\cdots+\phi_k)\hat Y \\ &=\phi_1 f_1 + \cdots \phi_{l-1} f_{l-1} + \gamma\left(\hat \beta_0 X_0 + \cdots \hat \beta_p X_p\right) \\ &=\phi_1 f_1 + \cdots \phi_{l-1} f_{l-1} +(\gamma\hat \beta_0) X_0 + \cdots (\gamma\hat \beta_p) X_p . }$$

Esto es explícitamente una combinación lineal finita de elementos de $E$ porque cada uno de los $f_i\in F$ ( $i \lt l$ ) está en $E$ y todos los $X_j$ están en $E$ , $j=0, 1, \ldots, p$ .

Desde $f\in \langle F \rangle$ implica $f\in \langle E \rangle$ se deduce (por definición) que $\langle F \rangle \subset \langle E \rangle$ , QED .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X