13 votos

¿Cómo debo manejar las variables categóricas con múltiples niveles al hacer eliminación hacia atrás?

Estoy haciendo una simple AIC basado en la eliminación hacia atrás modelo donde algunas de las variables son categóricas de las variables con los niveles múltiples. Estas variables se modela como un conjunto de variables ficticias. Cuando se realiza la eliminación hacia atrás, debería ser la eliminación de todos los niveles de una variable juntos? O debo tratar a cada variable ficticia por separado? Y ¿por qué?

Como una pregunta relacionada, paso en R se ocupa de cada variable ficticia por separado al hacer la eliminación hacia atrás. Si quería eliminar toda una variable categórica a la vez, puedo hacer que con el paso? O hay alternativas a paso que se puede manejar esto?

Gracias de antemano.

8voto

Dillie-O Puntos 16780

Creo que tendrías que quitar la totalidad de la variable categórica. Imaginar una regresión logística en el que usted está tratando de predecir si una persona tiene una enfermedad o no. País de nacimiento podría tener un impacto importante en la que, por lo que la incluye en su modelo. Si el USAmerican origen no tiene ningún impacto en la AIC y se te cayó, ¿cómo podría usted calcular el $\hat{y}$ para un Estadounidense? R utiliza la referencia de contrastes para los factores de forma predeterminada, así que yo creo que acababa de ser calculados en el nivel de referencia (por ejemplo, Botswana), en todo caso. Que probablemente no va a terminar bien...

Una mejor opción sería la de ordenar sensible codificaciones de país de nacimiento antes de colapsar en la región, continente, etc. y encontrar cuál es el más adecuado para su modelo.

Por supuesto, hay muchas formas de uso indebido de selección de variables paso a paso, así que asegúrese de que usted lo está haciendo correctamente. Hay un montón acerca de que en este sitio, a pesar de que, en búsqueda de "paso a paso" trae a colación algunos buenos resultados. Esto es particularmente pertinente, con un montón de buenos consejos en las respuestas.

0voto

LogLik Puntos 1

Como el ejemplo de los países, yo creo que si la variable ficticia para un país específico es seleccionado, entonces significa que este país es un predictor en comparación con todos los demás países juntos (no es necesario crear una nueva variable binaria). El problema que tengo muy a menudo las variables ficticias que reflejan, por ejemplo, la severidad de la enfermedad (tales como -, +, ++, +++). A veces, la variable ficticia para el ++ es seleccionado, pero la variable ficticia para +++ no lo es. En este caso, la reclasificación podría ser útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X