¿Dónde se contabiliza el efecto explicativo de la varianza común entre las covariables en los procedimientos de regresión?

Question

¿Dónde se contabiliza el efecto explicativo de la varianza común entre las covariables en los procedimientos de regresión?

Preguntado el 20 de Noviembre, 2015: Cuando se hizo la pregunta
221 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Como continuación de las excelentes respuestas proporcionadas para:

¿Importa el orden de las variables explicativas a la hora de calcular sus coeficientes de regresión?

(que he encontrado increíblemente útil desde una perspectiva pedagógica), me he preguntado cómo se las arregla exactamente para proporcionar coeficientes de regresión cuando tratamos con datos altamente colineales (dejando de lado el alto error estándar de estas estimaciones).

Editar : Para facilitar las cosas, he reproducido la sección de la pregunta enlazada que llega al quid de la confusión (de Elementos de Aprendizaje Estadístico), las dos primeras imágenes proporcionan el trasfondo pero la sección en cursiva de la última imagen llega a la raíz de la intuición con la que estoy luchando:

Mi pregunta en palabras, es - si, como se ha dicho, los coeficientes de regresión múltiple expresan el efecto de cada covariable sobre una variable dependiente habiendo parcializado la variabilidad que puede ser explicada por otras variables, ¿dónde se contabiliza el efecto explicativo de la variabilidad compartida de las covariables?

Tenga en cuenta que espero conseguir la intuición aquí - el álgebra y la geometría de la solución y ambos bastante fácil de entender.

Como ejemplo que trata de dilucidar, considere un extremo lógico donde:

$$ Y = X + \epsilon_y $$

$$ \epsilon_y \sim N(0,0.1) $$

$$ X_1 = X + \epsilon_1 $$

$$ X_2 = X + \epsilon_2 $$

$$ \epsilon_1 \sim \epsilon_2 \sim N(0,0.001) $$

Eso es, $Y$ y $X$ tienen una fuerte relación lineal, y existe una fuerte colinealidad entre $X_1$ y $X_2$ causados por su factor común $X$ . Ahora supongamos que intentamos:

$$ Y \sim X_1 + X_2 $$

Siguiendo el procedimiento de Gram-Schmidt, el residuo de $X_1$ o $X_2$ sobre las otras covariables (en este caso, sólo entre ellas) eliminan efectivamente la varianza común entre ellas (puede que sea aquí donde estoy entendiendo mal), pero seguramente al hacerlo se elimina el elemento común que logra explicar la relación con $Y$ ?

Editar : Para aclarar un punto señalado por abajo: como se elabora en la pregunta vinculada, en el procedimiento de GS los coeficientes de regresión múltiple no se generan a partir de los coeficientes intermedios que se producen "en camino" hacia el residuo final. Es decir, para obtener el coeficiente de $X_2$ tomamos el procedimiento GS de intercepción > $X_1$ > $X_2$ . A continuación, para generar el coeficiente de $X_1$ trabajaríamos a través de la intercepción > $X_2$ > $X_1$ . En ambos casos, la varianza común crucial debida a $X$ y la relación resultante con $Y$ se pierde.

Preguntado el 20 de Noviembre, 2015 por Sky Kelsey

Answer 1

2 Respuestas

Answer 2

5voto

zowens Puntos 1417

Aunque dices que la geometría de esto está bastante clara para ti, creo que es una buena idea revisarla. Hice este boceto al dorso de un sobre:

La subtrama de la izquierda es la misma figura que en el libro: considere dos predictores $x_1$ y $x_2$ ; como vectores, $\mathbf x_1$ y $\mathbf x_2$ abarcan un plano en el $n$ -y el espacio de las dimensiones, y $\mathbf y$ se proyecta sobre este plano dando lugar a la $\hat {\mathbf y}$ .

La subtrama central muestra el $X$ plano en el caso de que $\mathbf x_1$ y $\mathbf x_2$ no son ortogonales, pero ambas tienen longitud unitaria. Los coeficientes de regresión $\beta_1$ y $\beta_2$ puede obtenerse mediante una proyección no ortogonal de $\hat{\mathbf y}$ en $\mathbf x_1$ y $\mathbf x_2$ : eso debería estar bastante claro en la imagen. Pero, ¿qué ocurre cuando seguimos la vía de la ortogonalización?

Los dos vectores ortogonalizados $\mathbf z_1$ y $\mathbf z_2$ del Algoritmo 3.1 también se muestran en la figura. Obsérvese que cada uno de ellos se obtiene mediante un procedimiento de ortogonalización de Gram-Schmidt independiente (ejecución independiente del algoritmo 3.1): $\mathbf z_1$ es el residuo de $\mathbf x_1$ cuando se hace una regresión sobre $\mathbf x_2$ ans $\mathbf z_2$ es el residuo de $\mathbf x_2$ cuando se hace una regresión sobre $\mathbf x_1$ . Por lo tanto, $\mathbf z_1$ y $\mathbf z_2$ son ortogonales a $\mathbf x_2$ y $\mathbf x_1$ respectivamente, y sus longitudes son inferiores a $1$ . Esto es crucial.

Como se indica en el libro, el coeficiente de regresión $\beta_i$ se puede obtener como $$\beta_i = \frac{\mathbf z_i \cdot \mathbf y}{\|\mathbf z_i\|^2} =\frac{\mathbf e_{\mathbf z_i} \cdot \mathbf y}{\|\mathbf z_i\|},$$ donde $\mathbf e_{\mathbf z_{i}}$ denota un vector unitario en la dirección de $\mathbf z_i$ . Cuando proyecto $\hat{\mathbf y}$ en $\mathbf z_i$ en mi dibujo, la longitud de la proyección (mostrada en la figura) es el nominador de esta fracción. Para obtener el $\beta_i$ hay que dividir por la longitud de $\mathbf z_i$ que es menor que $1$ es decir, el $\beta_i$ será mayor que la longitud de la proyección.

Consideremos ahora lo que ocurre en el caso extremo de una correlación muy alta (subtrama de la derecha). Ambos $\beta_i$ son considerables, pero ambos $\mathbf z_i$ vectores son diminutos, y las proyecciones de $\hat{\mathbf y}$ en las direcciones de $\mathbf z_i$ también será diminuto; esto es lo que creo que le preocupa en última instancia. Sin embargo, para conseguir $\beta_i$ tendremos que reescalar estas proyecciones por longitudes inversas de $\mathbf z_i$ obteniendo los valores correctos.

Siguiendo el procedimiento de Gram-Schmidt, el residuo de X1 o X2 sobre las otras covariables (en este caso, sólo entre ellas) elimina efectivamente la varianza común entre ellas (puede que sea aquí donde me esté entendiendo mal), pero seguramente al hacerlo se elimina el elemento común que consigue explicar la relación con Y.

Repito: sí, la "varianza común" es casi (pero no totalmente) "eliminada" de los residuos - por eso las proyecciones sobre $\mathbf z_1$ y $\mathbf z_2$ será tan corto. Sin embargo, el procedimiento de Gram-Schmidt puede explicarlo normalizando por las longitudes de $\mathbf z_1$ y $\mathbf z_2$ las longitudes están inversamente relacionadas con la correlación entre $\mathbf x_1$ y $\mathbf x_2$ Así que al final se restablece el equilibrio.

Actualización 1

Siguiendo la discusión con @mpiktas en los comentarios: la descripción anterior es no cómo se suele aplicar el procedimiento Gram-Schmidt para calcular los coeficientes de regresión. En lugar de ejecutar el Algoritmo 3.1 muchas veces (cada vez reordenando la secuencia de predictores), se pueden obtener todos los coeficientes de regresión con una sola ejecución. Esto se señala en Hastie et al. en la página siguiente (página 55) y es el contenido del Ejercicio 3.4. Pero, tal como entendí la pregunta de OP, se refería al enfoque de múltiples ejecuciones (que produce fórmulas explícitas para $\beta_i$ ).

Actualización 2

En respuesta al comentario del OP:

Intento comprender cómo el "poder explicativo común" de un (sub)conjunto de covariables se "reparte" entre las estimaciones de los coeficientes de esas covariables. Creo que la explicación se encuentra en algún lugar entre la ilustración geométrica que has proporcionado y el punto de mpiktas sobre cómo los coeficientes deben sumar el coeficiente de regresión del factor común

Creo que si se trata de entender cómo se representa la "parte compartida" de los predictores en los coeficientes de regresión, no es necesario pensar en Gram-Schmidt en absoluto. Sí, se "repartirá" entre los predictores. Tal vez una forma más útil de pensar en ello es en términos de transformar los predictores con PCA para obtener predictores ortogonales. En su ejemplo habrá un gran primer componente principal con pesos casi iguales para $x_1$ y $x_2$ . Por lo tanto, el coeficiente de regresión correspondiente tendrá que ser "dividido" entre $x_1$ y $x_2$ en proporciones iguales. El segundo componente principal será pequeño y $\mathbf y$ será casi ortogonal a ella.

En mi respuesta anterior he supuesto que te confundes específicamente con el procedimiento de Gram-Schmidt y la fórmula resultante para $\beta_i$ en términos de $z_i$ .

Respondido el 25 de Noviembre, 2015 por zowens (1417 Puntos )

Answer 3

4voto

Marc-Andre R. Puntos 789

El procedimiento de la SG comenzaría con $X_1$ y luego pasar a ortogonalizar $X_2$ . Desde $X_1$ y $X_2$ compartir $X$ el resultado sería prácticamente cero en su ejemplo. Pero el elemento común $X$ queda, porque empezamos con $X_1$ y $X_1$ todavía tiene $X$ .

Desde $X_1$ y $X_2$ compartir común $X$ , obtendríamos que el resto de $X_2$ después de la ortogonalización es prácticamente cero, como se indica en la cita.

En este caso se podría argumentar que el problema original de regresión múltiple está mal planteado, por lo que no tiene sentido seguir adelante, es decir, deberíamos detener el proceso de GS y replantear el problema original de regresión múltiple como $Y\sim X_1$ . En este caso no perdemos el factor común $X$ y no se tiene en cuenta correctamente $X_2$ ya que no nos da ninguna información nueva que no tengamos.

Por supuesto, podemos continuar con el procedimiento GS y calcular el coeficiente para $X_2$ y volver a calcular el problema original de regresión múltiple. Como no tenemos una colinealidad perfecta, es posible hacerlo en teoría. En la práctica, dependerá de la estabilidad numérica de los algoritmos. Dado que

$$\alpha X_1+ \beta X2 = (\alpha+\beta)X +\alpha\epsilon_1 + \beta\epsilon_2 $$

la regresión $Y\sim X_1 + X_2$ producirá coeficientes $\alpha$ y $\beta$ tal que $\alpha+\beta \approx 1$ (no tendremos una igualdad estricta debido a $\epsilon_1$ y $\epsilon_2$ ).

Aquí está el ejemplo en R:

> set.seed(1001)
> x<-rnorm(1000)
> y<-x+rnorm(1000, sd = 0.1)
> x1 <- x + rnorm(1000, sd =0.001)
> x2 <- x + rnorm(1000, sd =0.001)
> lm(y~x1+x2)

Call:
lm(formula = y ~ x1 + x2)

Coefficients:
(Intercept)           x1           x2  
 -0.0003867   -1.9282079    2.9185409

Aquí me he saltado el procedimiento GS, porque el lm dio resultados factibles, y en ese caso recalcular los coeficientes a partir del procedimiento GS no falla.

Respondido el 20 de Noviembre, 2015 por Marc-Andre R. (789 Puntos )

¿Dónde se contabiliza el efecto explicativo de la varianza común entre las covariables en los procedimientos de regresión?

Respuestas

Actualización 1

Actualización 2

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Dónde se contabiliza el efecto explicativo de la varianza común entre las covariables en los procedimientos de regresión?

Respuestas

Actualización 1

Actualización 2

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: