Estoy tratando de encontrar un método para reducir el número de categorías en datos nominales u ordinales.
Por ejemplo, digamos que quiero construir un modelo de regresión sobre un conjunto de datos que tiene varios factores nominales y ordinales. Aunque no tengo problemas con este paso, a menudo me encuentro con situaciones en las que una característica nominal no tiene observaciones en el conjunto de entrenamiento, pero posteriormente existe en el conjunto de datos de validación. Esto conduce naturalmente a un error cuando el modelo se presenta con casos (hasta ahora) no vistos. Otra situación en la que me gustaría combinar categorías es simplemente cuando hay demasiadas categorías con pocas observaciones.
Así que mis preguntas son:
- Aunque me doy cuenta de que podría ser mejor combinar muchas categorías nominales (y ordinales) basándose en la información previa del mundo real que representan, ¿hay sistemática métodos (
R
paquetes preferentemente) disponibles? - ¿Qué directrices y sugerencias haría en relación con los umbrales de corte, etc.?
- ¿Cuáles son las soluciones más populares en la literatura?
- ¿Existen otras estrategias además de combinar pequeñas categorías nominales en una nueva categoría "OTROS"?
Por favor, no dude en intervenir si tiene otras sugerencias también.
0 votos
Mira la pregunta relacionada: stats.stackexchange.com/questions/227125/