27 votos

¿Importa el orden de las variables explicativas al calcular sus coeficientes de regresión?

Al principio pensé que el orden no importaba, pero luego leí sobre el proceso de ortogonalización de gram-schmidt para calcular los coeficientes de regresión múltiple, y ahora estoy teniendo dudas.

Según el proceso de gram-schmidt, cuanto más tarde esté indexada una variable explicativa entre las otras variables, más pequeño es su vector residual porque se restan de ella los vectores residuales de las variables precedentes. Como resultado, el coeficiente de regresión de la variable explicativa también es más pequeño.

Si eso es cierto, entonces el vector residual de la variable en cuestión sería más grande si estuviera indexado antes, ya que se restarían menos vectores residuales de él. Esto significa que el coeficiente de regresión también sería más grande.

Vale, me han pedido que aclare mi pregunta. Así que he publicado capturas de pantalla del texto que me confundió en primer lugar. Vale, allá vamos.

Lo que entiendo es que hay por lo menos dos opciones para calcular los coeficientes de regresión. La primera opción está indicada como (3.6) en la captura de pantalla a continuación.

La primera forma

Aquí está la segunda opción (tuve que usar varias capturas de pantalla).

La segunda forma

Ingrese una descripción de la imagen Ingrese una descripción de la imagen

A menos que esté interpretando algo mal (lo cual es definitivamente posible), parece que el orden importa en la segunda opción. ¿Importa en la primera opción? ¿Por qué o por qué no? ¿O es mi marco de referencia tan confuso que ni siquiera es una pregunta válida? Además, ¿todo esto está de alguna manera relacionado con la Suma de Cuadrados Tipo I vs. Suma de Cuadrados Tipo II?

¡Gracias de antemano, estoy tan confundido/a!

25voto

giulio Puntos 166

Creo que la confusión puede estar surgiendo de algo un poco más simple, pero brinda una buena oportunidad para revisar algunos temas relacionados.

Nótese que el texto no afirma que todos los coeficientes de regresión $\newcommand{\bhat}{\hat{\beta}}\newcommand{\m}{\mathbf}\newcommand{\z}{\m{z}}\bhat_i$ se pueden calcular a través de los vectores de residuos sucesivos como $$ \bhat_i \stackrel{?}{=} \frac{\langle \m y, \z_i \rangle}{\|\z_i\|^2}\>, $$ sino que solo el último, $\bhat_p$, ¡se puede calcular de esta manera!

El esquema sucesivo de ortogonalización (una forma de ortogonalización de Gram—Schmidt) está (casi) produciendo un par de matrices $\newcommand{\Z}{\m{Z}}\newcommand{\G}{\m{G}}\Z$ y $\G$ tales que $$ \m X = \Z \G \>, $$ donde $\Z$ es de tamaño $n \times p$ con columnas ortonormales y $\G = (g_{ij})$ es triangular superior de tamaño $p \times p$. Digo "casi" porque el algoritmo solo especifica $\Z$ hasta las normas de las columnas, que en general no serán uno, pero se pueden hacer tener norma unitaria normalizando las columnas y realizando un ajuste simple correspondiente a la matriz de coordenadas $\G$.

Suponiendo, por supuesto, que $\m X \in \mathbb R^{n \times p}$ tiene rango $p \leq n$, la solución única de mínimos cuadrados es el vector $\bhat$ que resuelve el sistema $$ \m X^T \m X \bhat = \m X^T \m y \>. $$

Sustituyendo $\m X = \Z \G$ y usando $\Z^T \Z = \m I$ (por construcción), obtenemos $$ \G^T \G \bhat = \G^T \Z^T \m y \> , $$ que es equivalente a $$ \G \bhat = \Z^T \m y \>. $$

Ahora, concéntrate en la fila última del sistema lineal. El único elemento distinto de cero de $\G$ en la última fila es $g_{pp}$. Entonces, obtenemos que $$ g_{pp} \bhat_p = \langle \m y, \z_p \rangle \>. $$ No es difícil ver (¡verificar esto como una comprobación de entendimiento!) que $g_{pp} = \|\z_p\|$ y así se obtiene la solución. (Caveat lector: He utilizado $\z_i$ ya normalizado a una norma unitaria, mientras que en el libro no lo han hecho. Esto explica el hecho de que en el libro haya una norma al cuadrado en el denominador, mientras que yo solo tengo la norma).

Para encontrar todos los coeficientes de regresión, es necesario hacer un paso de sustitución inversa simple para resolver los individuales $\bhat_i$. Por ejemplo, para la fila $(p-1)$, $$ g_{p-1,p-1} \bhat_{p-1} + g_{p-1,p} \bhat_p = \langle \m z_{p-1}, \m y \rangle \>, $$ y así $$ \bhat_{p-1} = g_{p-1,p-1}^{-1} \langle \m z_{p-1}, \m y \rangle \> - g_{p-1,p-1}^{-1} g_{p-1,p} \bhat_p . $$ Uno puede continuar este procedimiento trabajando "hacia atrás" desde la última fila del sistema hasta la primera, restando sumas ponderadas de los coeficientes de regresión ya calculados y luego dividiendo por el término principal $g_{ii}$ para obtener $\bhat_i.

El punto en la sección en ESL es que podríamos reordenar las columnas de $\m X$ para obtener una nueva matriz $\m X^{(r)}$ con la columna original $r$ ahora siendo la última. Si luego aplicamos el procedimiento de Gram–Schmidt a la nueva matriz, obtenemos una nueva ortogonalización de manera que la solución para el coeficiente original $\bhat_r$ se encuentra mediante la solución simple anterior. Esto nos da una interpretación para el coeficiente de regresión $\bhat_r$. Es una regresión univariante de $\m y$ en el vector residual obtenido por "regresar" las columnas restantes de la matriz de diseño de $\m x_r$.

Descomposiciones QR generales

El procedimiento de Gram–Schmidt es solo un método de producir una descomposición QR de $\m X$. De hecho, existen muchas razones para preferir otros enfoques algorítmicos sobre el procedimiento de Gram–Schmidt.

Las reflexiones de Householder y las rotaciones de Givens proporcionan enfoques más numéricamente estables para este problema. Nótese que el desarrollo anterior no cambia en el caso general de la descomposición QR. Es decir, sea $$ \m X = \m Q \m R \>, $$ cualquier descomposición QR de $\m X$. Luego, usando exactamente el mismo razonamiento y manipulaciones algebraicas que arriba, tenemos que la solución de mínimos cuadrados $\bhat$ satisface $$ \m R^T \m R \bhat = \m R^T \m Q^T \m y \>, $$ lo cual se simplifica a $$ \m R \bhat = \m Q^T \m y \> . $$ Dado que $\m R$ es triangular superior, entonces la misma técnica de sustitución inversa funciona. Primero resolvemos para $\bhat_p$ y luego avanzamos desde abajo hacia arriba. La elección de cuál algoritmo de descomposición QR usar generalmente depende de controlar la inestabilidad numérica y, desde este punto de vista, Gram–Schmidt generalmente no es un enfoque competitivo.

Esta noción de descomponer $\m X$ como una matriz ortogonal por algo más se puede generalizar un poco más para obtener una forma muy general para el vector ajustado $\hat{\m y}$, pero temo que esta respuesta ya se haya vuelto demasiado larga.

6voto

Stuart Puntos 9

Revisé el libro y parece que el ejercicio 3.4 podría ser útil para comprender el concepto de usar GS para encontrar todos los coeficientes de regresión $\beta_j$ (no solo el coeficiente final $\beta_p$ - así que escribí una solución. Espero que sea útil.

Ejercicio 3.4 en ESL

Muestra cómo se puede obtener el vector de coeficientes de mínimos cuadrados a partir de un solo paso del procedimiento de Gram-Schmidt. Representa tu solución en términos de la descomposición QR de $X$.

Solución

Recuerda que con un solo paso del procedimiento de Gram-Schmidt, podemos escribir nuestra matriz $X$ como $$X = Z \Gamma,$$ donde $Z$ contiene las columnas ortogonales $z_j$, y $\Gamma$ es una matriz diagonal superior con unos en la diagonal, y $\gamma_{ij} = \frac{\langle z_i, x_j \rangle}{\| z_i \|^2}$. Esto es un reflejo del hecho de que por definición, $$ x_j = z_j + \sum_{k=0}^{j-1} \gamma_{kj} z_k. $$

Ahora, mediante la descomposición $QR$, podemos escribir $X = QR$, donde $Q$ es una matriz ortogonal y $R$ es una matriz triangular superior. Tenemos $Q = Z D^{-1}$ y $R = D\Gamma$, donde $D$ es una matriz diagonal con $D_{jj} = \| z_j \|$.

Ahora, por la definición de $\hat \beta$, tenemos que $$ (X^T X) \hat \beta = X^T y. $$ Ahora, usando la descomposición $QR$, obtenemos \begin{align*} (R^T Q^T) (QR) \hat \beta &= R^T Q^T y \\ R \hat \beta &= Q^T y \end{align*}

Siendo $R$ una matriz triangular superior, podemos escribir \begin{align*} R_{pp} \hat \beta_p &= \langle q_p, y \rangle \\ \| z_p \| \hat \beta_p &= \| z_p \|^{-1} \langle z_p, y \rangle \\ \hat \beta_p &= \frac{\langle z_p, y \rangle}{\| z_p \|^2} \end{align*} de acuerdo con nuestros resultados anteriores. Ahora, mediante sustitución hacia atrás, podemos obtener la secuencia de coeficientes de regresión $\hat \beta_j$. Como ejemplo, para calcular $\hat \beta_{p-1}$, tenemos \begin{align*> R_{p-1, p-1} \hat \beta_{p-1} + R_{p-1,p} \hat \beta_p &= \langle q_{p-1}, y \rangle \\ \| z_{p-1} \| \hat \beta_{p-1} + \| z_{p-1} \| \gamma_{p-1,p} \hat \beta_p &= \| z_{p-1} \|^{-1} \langle z_{p-1}, y \rangle y luego resolver para $\hat \beta_{p-1}$. Este proceso se puede repetir para todos los $\beta_j$, obteniendo así los coeficientes de regresión en un solo paso del procedimiento de Gram-Schmidt.

3voto

Eero Puntos 1612

¿Por qué no intentarlo y comparar? Ajusta un conjunto de coeficientes de regresión, luego cambia el orden y ajústalos de nuevo para ver si difieren (excepto por posibles errores de redondeo).

Como señala @mpiktas, no está exactamente claro lo que estás haciendo.

Puedo ver el uso de GS para resolver $B$ en la ecuación de mínimos cuadrados $(x'x)B=(x'y)$. Pero luego estarías aplicando GS a la matriz $(x'x)$, no a los datos originales. En este caso, los coeficientes deberían ser los mismos (excepto por posibles errores de redondeo).

Otro enfoque de GS en regresión es aplicar GS a las variables predictoras para eliminar la colinealidad entre ellas. Luego, las variables ortogonalizadas se utilizan como predictores. En este caso, el orden importa y los coeficientes serán diferentes porque la interpretación de los coeficientes depende del orden. Considera 2 predictores $x_1$ y $x_2$ y aplica GS en ese orden y luego úsalos como predictores. En ese caso, el primer coeficiente (después de la intersección) muestra el efecto de $x_1$ en $y$ por sí solo y el segundo coeficiente es el efecto de $x_2$ en $y después de ajustar por $x_1. Ahora, si invierte el orden de las x, entonces el primer coeficiente muestra el efecto de $x_2$ en $y por sí solo (ignorando $x_1 en vez de ajustar por él) y el segundo es el efecto de $x_1 ajustando por $x_2.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X