Tengo el siguiente problema: estoy realizando una regresión logística múltiple sobre varias variables, cada una de las cuales tiene una escala nominal. Quiero evitar la multicolinealidad en mi regresión. Si las variables fueran continuas, podría calcular el factor de inflación de la varianza (VIF) y buscar variables con un VIF alto. Si las variables tuvieran una escala ordinaria, podría calcular los coeficientes de correlación de Spearman para varios pares de variables y comparar el valor calculado con un determinado umbral. Pero, ¿qué hago si las variables están sólo nominalmente escaladas? Una idea sería realizar una prueba de chi-cuadrado por pares para la independencia, pero las diferentes variables no tienen todas los mismos codominios. Eso sería otro problema. ¿Hay alguna posibilidad de resolver este problema?
+1. Hm... Un poco "blast-from-the-past" ese informe pero interesante. Sospecho que este enfoque será un dolor cuando se trata de múltiples variables que tienen múltiples niveles (sus aplicaciones son variables categóricas binarias o trinarias) pero sí, ¡lectura interesante!
1 votos
No es un duplicado, pero sí uno similar: stats.stackexchange.com/questions/200720/ . No te dejes engañar por el título, el OP de esa pregunta se refería a las variables independientes. También, ver la respuesta de Peter Flom a esta pregunta: stats.stackexchange.com/questions/72992/
5 votos
¿Por qué "quiere evitar la multicolinealidad"? A veces es inevitable, incluso útil, y puede tratarse con enfoques como la regresión de cresta. Si sus variables nominales fueran ítems individuales que juntos formaran una escala de Likert, entonces sí dependería de su multicolinealidad y podría utilizar la suma de dichos ítems como predictor. Entonces, ¿qué es lo que hace necesario evitar la multicolinealidad en su estudio?