Estoy utilizando una variable categórica (con tres categorías) como variable independiente en el modelo y he descubierto que una categoría es significativa y otra no lo es, mientras que la variable es significativa a nivel global para ser incluida en el modelo. No puedo entender si debo incluir la categoría no significativa en el modelo.
Respuestas
¿Demasiados anuncios?Las variables categóricas pueden representarse de varias maneras en un modelo de regresión. La más común, con diferencia, es la codificación de celdas de referencia. Por su descripción (y la mía anterior), sospecho que eso es lo que se utilizó en su caso. La salida estadística estándar le dará dos pruebas. Digamos que A es el nivel de referencia, tendrá una prueba de B frente a A, y una prueba de C frente a A (n.b., C puede diferir significativamente de B, pero no de A, y no aparecer en estas pruebas). Estas pruebas no suelen ser lo que realmente quieres saber. Debería probar una variable multicategoría eliminando ambos variables ficticias y realizar una prueba de modelo anidado. A menos que tenga un plan a priori para probar si un nivel preespecificado es necesario y no es "significativo", debe conservar toda la variable (es decir, todos los niveles). Si tenía esa hipótesis a priori (es decir, ese era el objetivo de su estudio), puede dejar de lado sólo el nivel en cuestión y realizar una prueba de modelo anidado.
Puede ayudarle a leer sobre algunos de estos temas. Aquí tiene algunas referencias para profundizar:
Estrategias de codificación para variables categóricas:
- Sitio web de ayuda a las estadísticas de la UCLA
- Aquí hablo de la codificación de las celdas de referencia: Regresión basada, por ejemplo, en los días de la semana
Problemas para modificar tu modelo en función de lo que encuentres, cuando no tenías una hipótesis preestablecida:
- Aunque no se enmarca exactamente en tu situación, puede que te hagas una idea de mi respuesta aquí: Algoritmos de selección automática de modelos
Problemas con las comparaciones múltiples:
- Puede hojear algunos de los hilos de CV categorizados bajo el comparaciones múltiples etiqueta
- la página de Wikipedia para comparaciones múltiples
Pruebas de modelos anidados:
- Aunque se discute en términos de pruebas para la moderación, mi respuesta aquí debería ser lo suficientemente clara para entender la idea: Pruebas de moderación con moderadores continuos y categóricos
No es necesario incluir variables indicadoras para cada una de las categorías. Digamos que la categoría A resulta significativa. Sus resultados le sugieren que considere la posibilidad de agrupar las categorías en "categoría A" y "todas las demás categorías".
Por supuesto, debería realizar una prueba F para el modelo anidado frente al modelo completo para comprobar si la eliminación de las variables indicadoras para otras categorías tiene sentido.