10 votos

¿Cómo evitar la colinealidad de las variables categóricas en la regresión logística?

Tengo el siguiente problema: estoy realizando una regresión logística múltiple sobre varias variables, cada una de las cuales tiene una escala nominal. Quiero evitar la multicolinealidad en mi regresión. Si las variables fueran continuas, podría calcular el factor de inflación de la varianza (VIF) y buscar variables con un VIF alto. Si las variables tuvieran una escala ordinaria, podría calcular los coeficientes de correlación de Spearman para varios pares de variables y comparar el valor calculado con un determinado umbral. Pero, ¿qué hago si las variables están sólo nominalmente escaladas? Una idea sería realizar una prueba de chi-cuadrado por pares para la independencia, pero las diferentes variables no tienen todas los mismos codominios. Eso sería otro problema. ¿Hay alguna posibilidad de resolver este problema?

1 votos

No es un duplicado, pero sí uno similar: stats.stackexchange.com/questions/200720/ . No te dejes engañar por el título, el OP de esa pregunta se refería a las variables independientes. También, ver la respuesta de Peter Flom a esta pregunta: stats.stackexchange.com/questions/72992/

5 votos

¿Por qué "quiere evitar la multicolinealidad"? A veces es inevitable, incluso útil, y puede tratarse con enfoques como la regresión de cresta. Si sus variables nominales fueran ítems individuales que juntos formaran una escala de Likert, entonces sí dependería de su multicolinealidad y podría utilizar la suma de dichos ítems como predictor. Entonces, ¿qué es lo que hace necesario evitar la multicolinealidad en su estudio?

6voto

usεr11852 Puntos 5514

Me gustaría secundar el comentario de @EdM (+1) y sugerir el uso de un enfoque de regresión regularizada.

Creo que un enfoque de redes elásticas/regresión de puentes debería permitirte tratar con predictores colineales. Sólo hay que tener cuidado de normalizar la matriz de características $X$ adecuadamente antes de utilizarlo, de lo contrario se corre el riesgo de regularizar cada rasgo de forma desproporcionada (sí, me refiero al $0/1$ columnas, debe escalarlas de manera que cada columna tenga una varianza y una media unitarias $0$ ).

Evidentemente, habría que validar los resultados de forma cruzada para garantizar una cierta estabilidad. Permítame también señalar que la inestabilidad es no un gran problema porque en realidad sugiere que no hay una solución/resultado inferencial obvio y simplemente interpretar el procedimiento GLM como "verdad de base" es incoherente.

3voto

Stephan Puntos 4003

El ViF sigue siendo una medida útil en su caso, pero el número de condición de su matriz de diseño es un enfoque más común para los datos categóricos.

La referencia original está aquí:

Belsley, David A.; Kuh, Edwin; Welsch, Roy E. (1980). "El número de condición". Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York: John Wiley & Sons. pp. 100-104.

Y aquí hay más enlaces útiles:
https://en.wikipedia.org/wiki/Condition_number

https://epub.ub.uni-muenchen.de/2081/1/report008_statistics.pdf

2 votos

+1. Hm... Un poco "blast-from-the-past" ese informe pero interesante. Sospecho que este enfoque será un dolor cuando se trata de múltiples variables que tienen múltiples niveles (sus aplicaciones son variables categóricas binarias o trinarias) pero sí, ¡lectura interesante!

2voto

Otro enfoque sería realizar un Análisis de Correspondencias Múltiples (ACM) en sus variables independientes multicolineales. Así obtendrá componentes ortogonales (perfectamente independientes) que podrá utilizar como IV en su modelo. No habrá colinealidad, pero será difícil interpretar los efectos de las variables originales. Por otro lado, si hay multicolinealidad, el MCA unirá los efectos de sus variables IV correlacionadas en efectos más generales, que pueden ser aún más interpretables y plausibles.

0voto

CodeBlend Puntos 416

Puede comprobar la correlación de las dos variables utilizando una prueba de rango u otra prueba no paramétrica para variables categóricas. Es lo mismo que se comprueba la matriz de correlación para un grupo de variables continuas, sólo que se utiliza una prueba diferente.

0 votos

El OP ya ha dicho que ha rechazado esto ya que sus variables no son categóricas ordenadas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X