15 votos

¿Métodos para fusionar/reducir categorías en datos ordinales o nominales?

Estoy tratando de encontrar un método para reducir el número de categorías en datos nominales u ordinales.

Por ejemplo, digamos que quiero construir un modelo de regresión sobre un conjunto de datos que tiene varios factores nominales y ordinales. Aunque no tengo problemas con este paso, a menudo me encuentro con situaciones en las que una característica nominal no tiene observaciones en el conjunto de entrenamiento, pero posteriormente existe en el conjunto de datos de validación. Esto conduce naturalmente a un error cuando el modelo se presenta con casos (hasta ahora) no vistos. Otra situación en la que me gustaría combinar categorías es simplemente cuando hay demasiadas categorías con pocas observaciones.

Así que mis preguntas son:

  • Aunque me doy cuenta de que podría ser mejor combinar muchas categorías nominales (y ordinales) basándose en la información previa del mundo real que representan, ¿hay sistemática métodos ( R paquetes preferentemente) disponibles?
  • ¿Qué directrices y sugerencias haría en relación con los umbrales de corte, etc.?
  • ¿Cuáles son las soluciones más populares en la literatura?
  • ¿Existen otras estrategias además de combinar pequeñas categorías nominales en una nueva categoría "OTROS"?

Por favor, no dude en intervenir si tiene otras sugerencias también.

0 votos

Mira la pregunta relacionada: stats.stackexchange.com/questions/227125/

12voto

Robert Dean Puntos 1523

Esto es una respuesta a su segunda pregunta.

Sospecho que el correcto El enfoque de este tipo de decisiones vendrá determinado en gran medida por las normas disciplinarias y las expectativas del público al que va dirigido su trabajo. Como científico social, a menudo trabajo con datos de encuestas (o similares) y siempre trato de equilibrar la lógica sustantiva y la de los datos cuando colapso las escalas ordinales o las variables categóricas. En otras palabras, hago todo lo posible por considerar qué combinaciones de elementos "encajan" en términos de su sustancia, así como la distribución de las respuestas antes de colapsar los elementos.

He aquí un ejemplo reciente de una pregunta de encuesta específica (ordinal) que implicaba una escala de frecuencia de cinco puntos:

¿Con qué frecuencia asiste a las reuniones de un club u organización de su comunidad?

  • Nunca
  • Unas cuantas veces al año
  • Una vez al mes
  • Unas cuantas veces al mes
  • Una vez a la semana o más

No dispongo de los datos en este momento, pero los resultados se inclinaban fuertemente hacia el extremo "nunca" de la escala. En consecuencia, mi coautor y yo decidimos agrupar las respuestas en dos grupos: "Una vez al mes o más" y "Menos de una vez al mes". La variable (binaria) resultante estaba más distribuida y refleja una distinción significativa en términos prácticos: dado que muchos clubes y organizaciones no se reúnen más de una vez al mes, hay buenas razones para creer que las personas que asisten a las reuniones al menos con esa frecuencia son miembros "activos" de dichos grupos, mientras que los que asisten con menos frecuencia (o nunca) son "inactivos".

Así que, según mi experiencia, estas decisiones tienen tanto de arte como de ciencia. Dicho esto, también suelo intentar hacerlo antes de ajustar cualquier modelo, ya que trabajo en una disciplina en la que cualquier otra cosa se considera (negativamente) como minería de datos y muy poco científica (¡qué tiempos más divertidos!).

Teniendo esto en cuenta, podría ayudar si pudiera decir un poco más sobre el tipo de público que tiene en mente para esta obra. También le convendría revisar algunos libros de texto de metodología destacados en su campo, ya que a menudo pueden aclarar lo que pasa por un comportamiento "normal" entre una comunidad de investigación determinada.

6voto

pauly Puntos 932

Los tipos de enfoques que discute ashaw pueden conducir a una metodología relativamente más sistemática. Pero también creo que por sistemática te refieres a algorítmica. Aquí las herramientas de minería de datos pueden llenar un vacío. Por un lado, está el procedimiento de detección automatizada de interacciones por chi-cuadrado (CHAID) integrado en el módulo de árbol de decisión de SPSS; puede, según las reglas establecidas por el usuario, colapsar las categorías ordinales o nominales de las variables predictoras cuando muestran valores similares en la variable de resultado (ya sea continua o nominal). Estas reglas pueden depender del tamaño de los grupos que se colapsan o que se crean al colapsar, o de la p -valores de las pruebas estadísticas relacionadas. Creo que algunos programas de árboles de clasificación y regresión (CART) pueden hacer lo mismo. Otros encuestados deberían poder hablar de funciones similares realizadas por redes neuronales u otras aplicaciones proporcionadas a través de diversos paquetes de minería de datos.

0 votos

Gran punto, @rolando - ya que el post original se refiere a los conjuntos de datos de entrenamiento y validación, sospecho que tu respuesta puede ser más útil para @Figaro.

0 votos

Gracias a ambos por su valiosa aportación. @rolando2 tienes razón sobre mi redacción ambigua, algorítmica era la dirección que pretendía.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X