13 votos

La multicolinealidad cuando regresiones individuales son importantes, pero VIFs son bajos

Tengo 6 variables ($x_{1}...x_{6}$) que estoy utilizando para predecir $y$. Al realizar mi análisis de datos, primero trató de una regresión lineal múltiple. A partir de esto, sólo dos variables fueron significativas. Sin embargo, cuando me encontré con una regresión lineal de la comparación de cada variable individualmente a $y$, todos menos uno fueron significativas ($p$ cualquier lugar de menos de 0,01 a menos de 0,001). Se sugirió que esto era debido a la multicolinealidad.

Mi investigación inicial en esto sugiere que la comprobación de la multicolinealidad mediante el uso de VIFs. He descargado el paquete apropiado de R, y terminó con el resultado de la VIFs: 3.35, 3.59, 2.64, 2.24, y 5.56. Según diversas fuentes en línea, el punto en el que debería estar preocupado acerca de la multicolinealidad con su VIFs es a las 4 o 5.

Ahora estoy perplejo acerca de lo que esto significa para mi de datos. ¿Tengo o no tengo un problema de la multicolinealidad? Si lo hago, entonces, ¿cómo debo proceder? (No puedo recopilar más datos, y las variables son las partes de un modelo que no están obviamente relacionadas) Si no tengo este problema, entonces, ¿qué debería de tomar mis datos, en particular el hecho de que estas variables son altamente significativas individualmente, pero no significativo en todos los combinados.

Edit: Algunas de las preguntas sobre el conjunto de datos, y por lo que me gustaría ampliar...

En este caso en particular, estamos tratando de entender cómo las señales sociales (el gesto, la mirada, etc) afectan a la probabilidad de que alguien la producción de algunos otros cue. Nos gustaría que nuestro modelo se incluyen importantes de todos los atributos, así que me siento a gusto de la eliminación de algunos que parecen redundantes.

No hay ninguna hipótesis con esto ahora mismo. Más bien, el problema es de ellos, y estamos buscando para obtener una mejor comprensión de qué atributos son importantes. Como lo que yo puedo decir, estos atributos deben ser relativamente independientes una de la otra (no se puede decir de la mirada y los gestos son los mismos, o el subconjunto de otro). Sería agradable ser capaz de informe valores de p para todo, ya nos gustaría a otros investigadores a entender lo que se ha mirado.

Edit 2: Ya que ocurrió en algún lugar debajo de mi $n$ es de 24.

19voto

jldugger Puntos 7490

Para entender lo que puede pasar, es muy instructivo para generar (y analizar) los datos que se comportan de la manera descrita.

Por simplicidad, vamos a olvidarnos de que la sexta variable independiente. Así, la pregunta que describe las regresiones de una variable dependiente $y$ contra cinco variables independientes $x_1, x_2, x_3, x_4, x_5$, en el que

  • Cada ordinaria de regresión $y \sim x_i$ es significativo en los niveles de $0.01$ a menos de $0.001$.

  • La regresión múltiple $y \sim x_1 + \cdots + x_5$ los rendimientos de los coeficientes significativos sólo para$x_1$$x_2$.

  • Todos varianza de la inflación de los factores (VIFs) son bajos, lo que indica buena acondicionado en el diseño de la matriz (es decir, la falta de colinealidad entre las $x_i$).

Vamos a hacer que esto suceda de la siguiente manera:

  1. Generar $n$ distribución normal, los valores de $x_1$$x_2$. (Vamos a elegir a $n$ después).

  2. Deje $y = x_1 + x_2 + \varepsilon$ donde $\varepsilon$ es independiente de error normal de media de $0$. Un poco de ensayo y error es necesario para encontrar la desviación estándar para $\varepsilon$; $1/100$ funciona bien (y es algo dramático: $y$ es extremadamente correlaciona bien con $x_1$$x_2$, incluso a pesar de que es sólo moderadamente correlacionados con $x_1$ $x_2$ individualmente).

  3. Vamos $x_j$ = $x_1/5 + \delta$, $j=3,4,5$, donde $\delta$ es independiente de la normal estándar de error. Esto hace que $x_3,x_4,x_5$ sólo ligeramente dependiente de $x_1$. Sin embargo, a través de la estrecha correlación entre el$x_1$$y$, esto induce a una pequeña correlación entre el $y$ y estos $x_j$.

He aquí el problema: si realizamos $n$ lo suficientemente grande, estos leve correlaciones dará como resultado coeficientes significativos, aunque $y$ es casi en su totalidad ", explicó" por sólo las dos primeras variables.

Me encontré con que $n=500$ funciona bien para reproducir el reporte de los p-valores. He aquí un diagrama de dispersión de la matriz de todas las seis variables:

spm

Mediante la inspección de la columna de la derecha (o la fila inferior) usted puede ver que $y$ tiene una buena (positivo) correlación con el $x_1$ $x_2$ pero poco aparente correlación con las otras variables. Inspeccionando el resto de esta matriz, se puede ver que las variables independientes $x_1, \ldots, x_5$ parecen ser mutuamente correlacionadas (random $\delta$ máscara de la pequeña dependencias que sabemos que están allí). No hay datos excepcional, nada terriblemente periféricas o con un alto apalancamiento. Los histogramas muestran que las seis variables son aproximadamente distribuidos normalmente, por cierto: estos datos son normales y "plain vanilla" como uno podría desear.

En la regresión de $y$ contra $x_1$$x_2$, los valores de p son esencialmente 0. En cada una de las regresiones de $y$ contra $x_3$, $y$ contra $x_4$, e $y$ contra $x_5$, los valores de p son 0.0024, 0.0083, y 0.00064, respectivamente, es decir, son "muy importantes". Pero en el pleno de regresión múltiple, los correspondientes p-valores de inflar a .46, .36, y .52, respectivamente: no significativo. La razón para esto es que una vez $y$ se ha retrocedido en contra de $x_1$$x_2$, la única materia de la izquierda para "explicar" la pequeña cantidad de errores en los residuos, que será aproximada $\varepsilon$, y este error es casi completamente sin relación con el resto de $x_i$. ("Casi" es correcto: hay un pequeño relación inducida por el hecho de que los residuos se calcula en la parte de los valores de $x_1$ $x_2$ y el $x_i$, $i=3,4,5$, ¿tienen alguna relación débil a$x_1$$x_2$. Este residuo de la relación es prácticamente indetectable, aunque, como hemos visto.)

El acondicionamiento número de el diseño de la matriz es sólo 2.17: eso es muy bajo, mostrando ninguna indicación de alta multicolinealidad en absoluto. (Perfecto falta de colinealidad se vería reflejado en un número acondicionado de 1, pero en la práctica esto se ve sólo con datos artificiales y los experimentos diseñados. Acondicionamiento de los números en el rango 1-6 (o incluso mayor, con más variables) son comunes.) Esto completa la simulación: se ha reproducido con éxito todos los aspectos del problema.

La perspectiva importante de este análisis ofrece incluyen

  1. los valores de p no nos dicen nada directamente acerca de colinealidad. Ellos dependen fuertemente de la cantidad de datos.

  2. Las relaciones entre los valores de p en las regresiones múltiples y los valores de p en las regresiones (la participación de los subgrupos de la variable independiente) son complejos y generalmente impredecibles.

En consecuencia, como otros han argumentado, los valores de p no debe ser su única guía (o, incluso, su principal guía) para el modelo de selección.


Editar

No es necesario para $n$ a ser tan grande como $500$ estos fenómenos a aparecer. Inspirado por la información adicional en la pregunta, el siguiente es un conjunto de datos construido en una manera similar con $n=24$ (en este caso $x_j = 0.4 x_1 + 0.4 x_2 + \delta$$j=3,4,5$). Esto crea las correlaciones de 0,38 a entre 0.73$x_{1-2}$$x_{3-5}$. La condición de que el diseño de la matriz es de 9.05: un poco alto, pero no es terrible. (Algunas de las reglas de pulgar decir que la condición de números tan altos como 10 son ok.) Los p-valores de cada uno de regresiones en contra de $x_3, x_4, x_5$ 0.002, 0.015, y 0.008: significativo muy significativo. Por lo tanto, algunos multicolinealidad está involucrado, pero no tan grande que se podría trabajar para cambiarlo. La intuición fundamental sigue siendo el mismo: la significación y la multicolinealidad son cosas diferentes; sólo leve matemática restricciones de mantener entre ellos; y es posible que la inclusión o exclusión de una sola variable a tener efectos profundos sobre todos los valores de p, incluso sin grave de multicolinealidad ser un problema.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

9voto

pauly Puntos 932

¿Tengo o no tengo un problema de la multicolinealidad? Si lo hago, entonces, ¿cómo debo proceder?

No es una o la otra situación. Y yo soy escéptico acerca de la "4 o 5" de la pauta. Para cada uno de los predictores, el error estándar del coeficiente es de entre 2.2 y 5,6 veces tan grande como lo sería si el predictor fueron correlacionados con la de los demás. Y la parte de un determinado predictor que no puede ser explicado por los otros rangos de 1/2.2 a 1/5.6, o un 18% a un 45%. En conjunto, que parece una bonita cantidad sustancial de colinealidad.

Pero vamos un paso atrás por un minuto. Están realmente tratando de predecir *Y*, en vez de tratar de explicar ? Si el anterior, entonces supongo que usted no necesita preocuparse de si el nivel de significación de una determinada variable cambia cuando hay otras personas presentes en el modelo. Su trabajo es realmente mucho más fácil de lo que sería si la verdadera explicación de que eran necesarios.

Si la explicación es su meta, usted necesitará considerar la forma en que estas variables se interrelacionan entre sí, algo que requiere más de la información estadística. Claramente que se superponen en la forma en que se relacionan Y, y esta colinealidad hará que sea difícil de establecer, por ejemplo, su orden de importancia en contabilidad Y. En esta situación no hay un camino claro a seguir.

En cualquier caso, espero que estén teniendo en cuenta los métodos de la validación cruzada.

6voto

Usted tiene la multicolinealidad. Su análisis inicial demostrado que. Lejos de ser un problema, esa es otra pregunta que parece tener muchas respuestas en su caso.

Tal vez si tienes la cuestión fundamental de que mejor sería más obvio, ¿qué hacer?...

Con la multicolinealidad sus coeficientes de regresión son acerca de la singular (bien cerca de la única) de las contribuciones de cada variable en el modelo. Si algunos están correlacionadas entre sí, a continuación, cada correlaciona la única contribución es menor. Eso es probablemente en parte por qué ninguno son significativos cuando están todos juntos, pero cuando se utiliza solo pueden ser.

La primera cosa que usted probablemente tendrá que hacer es considerar lo que la intercorrelación entre las variables medios. Por ejemplo, ¿tienes un montón de variables que acaba de soporte para la misma cosa? ¿Usted acaba de suceder a la medida de su predictores más de una baja escala y obtener incidental correlaciones? No trate de solucionar la regresión, tratar de entender sus variables.

Considere la posibilidad de X1 y X2 con una correlación muy fuerte entre ellos, es decir r = 0.90. Si pones X1 en el modelo y es un predictor significativo, a continuación, otro modelo con X2 solo es muy probable que sea significativo porque son casi la misma cosa. Si se les pone en el modelo, junto con al menos uno de ellos tiene que sufrir debido a la regresión múltiple se va a resolver sus contribuciones únicas. Ambos pueden ser no significativas. Pero ese no es el punto, el punto es reconocer por qué se superponen mucho y si se llega incluso a decir nada diferente el uno del otro y de si se necesita o no? Tal vez uno expresa una idea de manera más significativa y más relacionado con la respuesta de la variable que la de los otros. Tal vez usted a la conclusión de que son la misma cosa con diferentes niveles de variabilidad.

También, cuando se busca en los modelos de cualquier tipo, pero especialmente con interrelacionadas predictores, los valores de p son una terrible manera de saber si un nuevo predictor hace una contribución significativa (si eso es lo que estamos tratando de hacer... no estoy seguro de lo que estás tratando de hacer, porque suena como que usted está tratando de hacer la regresión a) simple, o B) vienen de la manera que usted desea... ninguno de los cuales son factibles). Usted está probablemente mejor buscar AIC para ayudarle a determinar los predictores que se debe mantener y que no te aportan nada.

2voto

Zizzencs Puntos 1358

Personalmente, yo uso la condición de los índices y la varianza explicada de la tabla a analizar colinealidad.

Yo también no uso valores de p como un criterio para la construcción de modelos, y al comparar los modelos con 6 IVs para modelos con 1, yo los miraba a los cambios en el tamaño del efecto de los parámetros para la variable que es a la vez.

Pero sin duda puede tener los resultados que usted menciona, sin colinealidad. La colinealidad es sólo acerca de las variables X y su relación. Pero dos variables podría ambos se relacionan fuertemente a Y mientras no relacionadas fuertemente el uno al otro.

0voto

Chris Cudmore Puntos 634

Con respecto a la multicolinealidad hay varios umbrales mencionados suelen converger en torno a un VIF de 10 correspondiente a un subyacente valor R Cuadrado de 0.90 entre la prueba variable vs el resto de variables independientes. La VIFs de las variables parecen pasables, y técnicamente podría mantenerlos en un modelo.

Sin embargo, me gustaría utilizar un método de regresión paso a paso para ver que son la mejor combinación de variables y cuánto más explicación (aumento incremental en R Cuadrado), se obtiene mediante la adición de variables. El arbitraje de referencia debe ser el valor R Cuadrado Ajustado que ajusta el valor R Cuadrado hacia abajo por penalizar el modelo para la adición de variables.

Las variables son un poco correlacionadas entre sí. Esto es inevitable, es sólo una cuestión de grado. Dada la VIFs que usted menciona, sospecho que intuitivamente que va a conseguir que la gran mayoría de la información/explicación de bits de los mejores 2 combinación variable. Y, que la adición de variables pueden agregar sólo marginal valor incremental.

Cuando se mira en la combinación de variables que son seleccionados por la regresión paso a paso el proceso, también me gustaría un vistazo a lo que son las variables seleccionadas y si su coeficiente de regresión de los signos son consistentes con su correlación con y. Si no lo están, puede ser debido a un legitmate la interacción entre las variables. Pero, también podría ser el resultado de un modelo de sobreajuste y que los coeficientes de regresión son espurios. Reflejan un matemático de ajuste, pero no tienen sentido en términos de la causalidad subyacente.

Otra manera de seleccionar las variables es decidir desde un punto de vista de la lógica cuáles son los principales 2 o 3 variables en el modelo. Empezar con aquellos y, a continuación, comprobar cuanta más información se consigue mediante la adición de una variable. Compruebe el R Cuadrado ajustado, la consistencia de la regresión coeficiente relativo a la regresión original, y obviamente probar todos los modelos con aguantar período. Muy pronto, se pondrá de manifiesto lo que es su mejor modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X