Processing math: 100%

20 votos

¿Cuándo podemos hablar de colinealidad

En los modelos lineales tenemos que comprobar si existe una relación entre las variables explicativas. Si están demasiado correlacionadas, existe colinealidad (es decir, las variables se explican parcialmente entre sí). Por el momento, sólo estoy examinando la correlación por pares entre cada una de las variables explicativas.

Pregunta 1: ¿Qué se considera demasiada correlación? Por ejemplo, ¿es excesiva una correlación de Pearson de 0,5?

Pregunta 2: ¿Podemos determinar completamente si existe colinealidad entre dos variables basándonos en el coeficiente de correlación o depende de otros factores?

Pregunta 3: ¿Una comprobación gráfica del diagrama de dispersión de las dos variables añade algo a lo que indica el coeficiente de correlación?

18voto

Sean Hanley Puntos 2428
  1. No existe una "línea clara" entre no demasiada colinealidad y demasiada colinealidad (salvo en el sentido trivial de que r=1.0 es definitivamente demasiado). Los analistas no suelen pensar en r=.50 como demasiada colinealidad entre dos variables. Una regla empírica relativa a la multicolinealidad es que hay demasiada cuando el VIF es superior a 10 (esto se debe probablemente a que tenemos 10 dedos, así que tomemos estas reglas empíricas por lo que valen). La implicación sería que hay demasiada colinealidad entre dos variables si r.95 . Puede leer más sobre el VIF y la multicolinealidad en mi respuesta aquí: ¿Cuál es el efecto de tener predictores correlacionados en un modelo de regresión múltiple?

  2. Depende de lo que se entienda por "determinar plenamente". Si la correlación entre dos variables fuera r.95 la mayoría de los analistas de datos dirían que existe una colinealidad problemática. Sin embargo, se pueden tener múltiples variables en las que ninguna de ellas tenga una correlación por pares tan alta, y aún así tener una colinealidad problemática oculta entre todo el conjunto de variables. Aquí es donde resultan útiles otras métricas, como los VIF y los números de condición. Puede leer más sobre este tema en mi pregunta aquí: ¿Hay alguna razón para preferir una medida específica de la multicolinealidad?

  3. Siempre es inteligente analizar los datos y no limitarse a resúmenes numéricos o resultados de pruebas. La referencia canónica aquí es El cuarteto de Anscomb .

3voto

pedrofigueira Puntos 468

Mi opinión sobre las tres preguntas es

Pregunta 1 ¿Qué se considera demasiada correlación? Por ejemplo: ¿una correlación Pearson de 0,5 es demasiada?

Muchos autores sostienen que la (multi)colinealidad no es un problema. Eche un vistazo aquí y aquí para una opinión bastante ácida sobre el tema. La conclusión es que la multicolinealidad no influye en la comprobación de hipótesis, aparte de tener un tamaño de muestra (efectivo) menor. Le resultará difícil interpretar los coeficientes de regresión si hace una regresión, por ejemplo, pero no viola ningún supuesto básico si decide hacerlo.

Pregunta 2 ¿Podemos determinar completamente si existe colinealidad entre dos variables basándonos en el coeficiente de correlación o depende de otros factores?

Creo que hay varias formas de medir la correlación entre dos variables, desde calcular el coeficiente de correlación de Pearson (si asumes linealidad, y aparentemente así lo hiciste), hasta Rango de Spearman , correlación de distancias e incluso haciendo PCA en su conjunto de datos. Pero dejaría la respuesta a esta pregunta a personas mejor informadas que yo.

Pregunta 3 ¿La comprobación gráfica del diagrama de dispersión de las dos variables añade algo a lo que indica el coeficiente de correlación?

En mi opinión, la respuesta es un rotundo no.

1voto

silk Puntos 1794

Una forma habitual de evaluar la colinealidad son los factores de inflación de la varianza (VIF). Esto se puede conseguir en R utilizando la función "vif" del paquete "car". Esto tiene una ventaja sobre mirar sólo las correlaciones entre dos variables, ya que evalúa simultáneamente la correlación entre una variable y el resto de las variables del modelo. De este modo, se obtiene una única puntuación para cada predictor del modelo.

Como ya se ha indicado, no existe un límite fijo, pero las puntuaciones VIF suelen ser problemáticas cuando se sitúan entre 5 y 10. Yo utilizo reglas empíricas específicas para este campo. Además, no hay nada necesariamente inválido en utilizar predictores correlacionados (siempre que no estén perfectamente correlacionados). Sólo necesitará más datos para separar los efectos. Si no se dispone de datos suficientes, habrá grandes incertidumbres en las estimaciones de los parámetros de los predictores correlacionados, y estas estimaciones serán sensibles al remuestreo.

Para responder concretamente a sus preguntas:

  1. No utilice coeficientes de correlación. Utilice los VIF del modelo con todos los predictores y sin interacciones. VIFs de 5-10 indican demasiada correlación, su límite específico depende de lo que necesite hacer con el modelo.

  2. Depende de los demás predictores del modelo, por lo que resulta beneficioso utilizar VIF.

  3. ¡No! Las estadísticas cuantificarán mejor lo que estás viendo con el gráfico de dispersión. A menos que haya una gran violación de los supuestos de MCO al hacer la regresión de los predictores entre sí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X