5 votos

Variable categórica con un gran número de categorías como predictor

Estoy tratando de usar una variable categórica como un predictor de un aprendizaje supervisado, pero hay demasiadas categorías para el algoritmo de clasificación de manejar, algo así como más de 1000 categorías.

¿Cuáles son algunas maneras de obtener un número manejable de categorías, hay una manera estándar de agrupamiento de estas categorías?

Supongo que este agrupamiento se debe realizar en un conjunto de entrenamiento dispares de una prueba de conjunto, para obtener una verdadera medida de error de muestreo? Si la validación cruzada es empleado, supongo que el procedimiento se debe ejecutar en cada pliegue.

4voto

Michael Greinecker Puntos 19016

el agrupamiento es realmente doloroso - muchos dicen que no es correcto hacerlo, muchos otros, ofrecen la agrupación observando la respuesta, de todos modos vas a sentir un poco incómodo:)

A partir de los comentarios veo que es geográficas de datos que desea utilizar como variable predictora (códigos postales). A continuación, considere la posibilidad de kriging - lo he utilizado para un problema similar - predicción de el precio de la vivienda de la dirección única y estaba muy satisfecho, especialmente desde que se resolvió uno de los más importantes del problema - la predicción de los resultados en el caso de un nuevo predictor de nivel (desde el predictor se vuelve continuo, no categórica, usted será capaz de predecir el precio de entrega aún no había entrega de un código POSTAL determinado). Hermosos mapas de calor es otro bono.

Aquí es un buen conferencia (con buen acento italiano) por Fabio Veronesi con ejemplos de kriging con R. http://www.fabioveronesi.net/r-course/lesson4.html

Uno de los problemas que se enfrentan es la geocodificación de las coordenadas GPS, y usted puede utilizar la función de geocodificación de ggmap paquete en R (utilizando el servicio gratuito de Google hasta cierto límite de consultas por día, me preguntó durante una semana para conseguir todo hecho). http://cran.r-project.org/web/packages/ggmap/ggmap.pdf

Esperemos que esto era útil, feliz predecir.

1voto

Amadiere Puntos 5606

Las redes neuronales se han utilizado con más de 1000 categorías (consulte el documento de Google sobre reconocimiento de imágenes). Pero sí, no es fácil, y es posible que necesite muchos más datos para aprender.

¿Ha considerado agregar categorías en grupos más grandes en su lugar?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X