8 votos

Importancia de las variables ficticias en la regresión

Estoy utilizando una variable categórica (con tres categorías) como variable independiente en el modelo y he descubierto que una categoría es significativa y otra no lo es, mientras que la variable es significativa a nivel global para ser incluida en el modelo. No puedo entender si debo incluir la categoría no significativa en el modelo.

10voto

Sean Hanley Puntos 2428

Las variables categóricas pueden representarse de varias maneras en un modelo de regresión. La más común, con diferencia, es la codificación de celdas de referencia. Por su descripción (y la mía anterior), sospecho que eso es lo que se utilizó en su caso. La salida estadística estándar le dará dos pruebas. Digamos que A es el nivel de referencia, tendrá una prueba de B frente a A, y una prueba de C frente a A (n.b., C puede diferir significativamente de B, pero no de A, y no aparecer en estas pruebas). Estas pruebas no suelen ser lo que realmente quieres saber. Debería probar una variable multicategoría eliminando ambos variables ficticias y realizar una prueba de modelo anidado. A menos que tenga un plan a priori para probar si un nivel preespecificado es necesario y no es "significativo", debe conservar toda la variable (es decir, todos los niveles). Si tenía esa hipótesis a priori (es decir, ese era el objetivo de su estudio), puede dejar de lado sólo el nivel en cuestión y realizar una prueba de modelo anidado.

Puede ayudarle a leer sobre algunos de estos temas. Aquí tiene algunas referencias para profundizar:

Estrategias de codificación para variables categóricas:

Problemas para modificar tu modelo en función de lo que encuentres, cuando no tenías una hipótesis preestablecida:

Problemas con las comparaciones múltiples:

Pruebas de modelos anidados:

1voto

TrynnaDoStat Puntos 3590

No es necesario incluir variables indicadoras para cada una de las categorías. Digamos que la categoría A resulta significativa. Sus resultados le sugieren que considere la posibilidad de agrupar las categorías en "categoría A" y "todas las demás categorías".

Por supuesto, debería realizar una prueba F para el modelo anidado frente al modelo completo para comprobar si la eliminación de las variables indicadoras para otras categorías tiene sentido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X