1 votos

¿Cómo procesar características categóricas con muchos valores?

Quiero aplicar el aprendizaje automático y el aprendizaje profundo.

Tengo datos categóricos sobre la cadena. Mi primera opción era realizar una codificación ficticia en las columnas ( scikitlearn ). Pero hay algunas columnas que tienen miles de valores categóricos, si utilizo la codificación ficticia, esto ampliará enormemente el conjunto de datos.

¿Qué otra alternativa tengo? ¿Si simplemente realizo un codificador de etiquetas y luego escalo todo entre 0 y 1 podría funcionar?

0voto

rinspy Puntos 106

Si tiene algún conocimiento del dominio, puede intentar agrupar sus categorías en categorías más amplias y generales.

También puede intentar realizar una selección de características en estas variables categóricas. La selección de rasgos mediante árboles de decisión podría ser especialmente útil en este caso; puede descubrir que puede podar muchas de las categorías o incluso variables categóricas.

Por último, si es factible realizar una codificación ficticia, no veo por qué no debería hacerlo. La red profunda debería ser capaz de lidiar con ello.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X