12 votos

¿Cómo puede manejar la inestabilidad $\beta$ ¿Estimaciones en regresión lineal con alta multicolinealidad sin descartar variables?

¿Estabilidad de la beta en la regresión lineal con alta multicolinealidad?

Digamos que en una regresión lineal, las variables $x_1$ y $x_2$ tiene una alta multicolinealidad (la correlación es de alrededor de 0,9).

Nos preocupa la $\beta$ estabilidad de los coeficientes por lo que tenemos que tratar la multicolinealidad.

La solución de libro de texto sería simplemente tirar una de las variables.

Pero no queremos perder información útil por el simple hecho de desechar variables.

¿Alguna sugerencia?

9voto

Niall Puntos 51

Bueno, hay un método ad hoc que he utilizado antes. No estoy seguro de si este procedimiento tiene un nombre, pero tiene sentido intuitivamente.

Supongamos que su objetivo es ajustar el modelo

$$ Y_i = \beta_0 + \beta_1 X_i + \beta_2 Z_i + \varepsilon_i $$

donde los dos predictores - $X_i, Z_i$ - están muy correlacionados. Como has señalado, el uso de ambos en el mismo modelo puede hacer cosas extrañas a las estimaciones de los coeficientes y $p$ -valores. Una alternativa es ajustar el modelo

$$ Z_i = \alpha_0 + \alpha_1 X_i + \eta_i $$

Entonces el residuo $\eta_i$ no estará correlacionada con $X_i$ y puede, en cierto sentido, considerarse como la parte de $Z_i$ que no está subsumida por su relación lineal con $X_i$ . A continuación, se puede proceder a ajustar el modelo

$$ Y_i = \theta_0 + \theta_1 X_i + \theta_2 \eta_i + \nu_i $$

que recogerá todos los efectos del primer modelo (y, de hecho, tendrá exactamente el mismo $R^2$ como el primer modelo) pero los predictores ya no son colineales.

Editar: El OP ha pedido una explicación de por qué los residuos no tienen, por definición, una correlación muestral de cero con el predictor cuando se omite el intercepto como lo hacen cuando se incluye el intercepto. Esto es demasiado largo para publicarlo en los comentarios, así que lo he editado aquí. Esta derivación no es particularmente esclarecedora (desafortunadamente no pude llegar a un argumento intuitivo razonable) pero muestra lo que el OP pidió :

Cuando se omite el intercepto en la regresión lineal simple , $\hat \beta = \frac{ \sum x_i y_i}{\sum x_i^2}$ Así que $e_i = y_i - x_i \frac{ \sum x_i y_i}{\sum x_i^2}$ . La correlación de la muestra entre $x_i$ y $e_i$ es proporcional a $$\overline{xe} - \overline{x}\overline{e}$$ donde $\overline{\cdot}$ denota la media muestral de la cantidad bajo la barra. Ahora mostraré que esto no es necesariamente igual a cero.

Primero tenemos

$$\overline{xe} = \frac{1}{n} \left( \sum x_i y_i - x_{i}^2 \cdot \frac{ \sum x_i y_i}{\sum x_i^2} \right) = \overline{xy} \left( 1 - \frac{ \sum x_{i}^2}{ \sum x_{i}^2 } \right) = 0$$

pero

$$\overline{x} \overline{e} = \overline{x} \left( \overline{y} - \frac{\overline{x} \cdot \overline{xy}}{\overline{x^2}} \right) = \overline{x}\overline{y} - \frac{\overline{x}^2 \cdot \overline{xy}}{\overline{x^2}}$$

por lo que para que el $e_i$ y $x_i$ para tener una correlación muestral de exactamente 0, necesitamos $\overline{x}\overline{e}$ para ser $0$ . Es decir, necesitamos $$ \overline{y} = \frac{ \overline{x} \cdot \overline{xy}}{\overline{x^2}} $$

que no se cumple en general para dos conjuntos arbitrarios de datos $x, y$ .

2voto

Sean Hanley Puntos 2428

Me gustan las dos respuestas dadas hasta ahora. Permítanme añadir algunas cosas.

Otra opción es que también puedes combinar las variables. Esto se hace estandarizando ambas (es decir, convirtiéndolas en puntuaciones z), promediándolas, y luego ajustando su modelo sólo con la variable compuesta. Este sería un buen enfoque cuando se cree que son dos medidas diferentes del mismo constructo subyacente. En ese caso, tiene dos medidas que están contaminadas por el error. El valor verdadero más probable de la variable que realmente se encuentra entre ellos, por lo que al promediarlos se obtiene una estimación más precisa. Primero hay que estandarizarlas para ponerlas en la misma escala, de modo que las cuestiones nominales no contaminen el resultado (por ejemplo, no querrás promediar varias mediciones de temperatura si algunas son Fahrenheit y otras Celsius). Por supuesto, si ya están en la misma escala (por ejemplo, varias encuestas de opinión pública altamente correlacionadas), puede saltarse ese paso. Si crees que una de las variables puede ser más precisa que la otra, puedes hacer una media ponderada (quizás utilizando los recíprocos de los errores de medición).

Si las variables son diferentes medidas del mismo constructo y están lo suficientemente correlacionadas, se puede descartar una de ellas sin perder mucha información. Por ejemplo, una vez me encontré en una situación en la que quería utilizar una covariable para absorber parte de la varianza del error y aumentar la potencia, pero no me importaba esa covariable, ya que no era importante. Tenía varias opciones disponibles y todas estaban correlacionadas entre sí $r>.98$ . Básicamente elegí uno al azar y seguí adelante, y funcionó bien. Sospecho que habría perdido poder quemar dos grados de libertad extra si hubiera incluido los otros también utilizando alguna otra estrategia. Por supuesto, yo podría los han combinado, pero ¿para qué molestarse? Sin embargo, esto depende críticamente del hecho de que sus variables estén correlacionadas porque son dos versiones diferentes de la misma cosa; si hay una razón diferente por la que están correlacionadas, esto podría ser totalmente inapropiado.

Como eso implica, le sugiero que piense en lo que hay detrás de sus variables correlacionadas. Es decir, necesitas una teoría de por qué están tan altamente correlacionadas como para hacer el mejor trabajo de elegir qué estrategia usar. Además de diferentes medidas de la misma variable latente, otras posibilidades son una cadena causal (es decir $X_1\rightarrow X_2\rightarrow Y$ ) y situaciones más complicadas en las que sus variables son el resultado de múltiples fuerzas causales, algunas de las cuales son las mismas para ambos. Quizás el caso más extremo es el de una variable supresora, que @whuber describe en su comentario más abajo. La sugerencia de @Macro, por ejemplo, supone que usted está interesado principalmente en $X$ y se preguntan por el adicional contribución de $Z$ después de tras haber contabilizado $X$ de la contribución. Por lo tanto, pensar en por qué sus variables están correlacionadas y lo que quiere saber le ayudará a decidir cuál (es decir, $x_1$ o $x_2$ ) debe tratarse como $X$ y que $Z$ . La clave es utilizar visión teórica para informar de su elección.

Estoy de acuerdo en que la regresión de cresta es posiblemente mejor, porque le permite utilizar las variables que había previsto originalmente y es probable que produzca betas que se acerquen mucho a sus valores verdaderos (aunque estarán sesgados; véase aquí o aquí para más información). Sin embargo, creo que también tiene dos posibles inconvenientes: Es más complicado (requiere más sofisticación estadística), y el modelo resultante es más difícil de interpretar, en mi opinión.

Deduzco que tal vez el enfoque definitivo sería ajustar un modelo de ecuaciones estructurales. Eso es porque te permitiría formular el conjunto exacto de relaciones que crees que son operativas, incluyendo las variables latentes. Sin embargo, no conozco el SEM lo suficientemente bien como para decir nada al respecto aquí, aparte de mencionar la posibilidad. (También sospecho que sería exagerado en la situación que describes con sólo dos covariables).

1voto

Paul Puntos 546

Puedes probar regresión de cresta en el caso de que la matriz de correlación esté cerca del singular (es decir, las variables tienen correlaciones altas). Le proporcionará una estimación robusta de $\beta$ .

La única cuestión es cómo elegir el parámetro de regularización $\lambda$ . No es un problema sencillo, aunque sugiero probar diferentes valores.

Espero que esto ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X