16 votos

Codificación categórica características de los números para el aprendizaje de máquina

Muchos algoritmos de aprendizaje automático, por ejemplo las redes neuronales, esperar a lidiar con los números. Así que, cuando usted tiene una categoría de datos, usted necesita para convertir. Por categóricos me refiero, por ejemplo:

Las marcas de automóviles: Audi, BMW, Chevrolet... Id De Usuario: 1, 25, 26, 28...

Aunque los identificadores de usuario son números, son sólo etiquetas, y no significa nada en términos de continuidad, como la edad o la suma de dinero.

Así, el enfoque básico parece usar vectores binarios para codificar las categorías de:

Audi: 1, 0, 0... BMW: 0, 1, 0... Chevrolet: 0, 0, 1...

Es ACEPTAR cuando hay varias categorías, pero más allá de que se ve un poco ineficiente. Por ejemplo, cuando usted tiene 10 000 identificadores de usuario de codificar, es 10 000 características.

La pregunta es, ¿hay una mejor manera? Tal vez uno relacionado con las probabilidades?

6voto

On Freund Puntos 3479

Siempre se puede tratar su id de usuario como bolsa de palabras: la mayoría del texto de los clasificadores pueden lidiar con cientos de miles de dimensiones, cuando la información es escasa (muchos ceros que usted no necesita almacenar de forma explícita en la memoria, por ejemplo, si usted usa Comprimido Escasa Filas de representación para los datos de la matriz).

Sin embargo, la pregunta es: ¿tiene sentido w.r.t. que problema específico para el tratamiento de los identificadores de usuario como características? No tendría más sentido denormalize su relación de datos y el uso de las funciones de usuario (edad, ubicación, char-ngrams del apodo en línea, historial de transacciones...) en lugar de su id?

Usted también puede realizar la agrupación de su prima de usuario de vectores y el uso de la N superior más cercano de los centros de identificación de características activadas para que en lugar del id de usuario.

1voto

S Pike Puntos 1

Equilátero de codificación es probablemente lo que usted está buscando cuando se trata de codificar las clases en una red neuronal. Se tiende a funcionar mejor que "1 de n" de la codificación que se hace referencia en otros posts. Para la referencia, me permito sugerir: http://www.heatonresearch.com/wiki/Equilateral

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X