Codificación categórica características de los números para el aprendizaje de máquina

Question

Codificación categórica características de los números para el aprendizaje de máquina

Preguntado el 26 de Enero, 2012: Cuando se hizo la pregunta
4078 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Muchos algoritmos de aprendizaje automático, por ejemplo las redes neuronales, esperar a lidiar con los números. Así que, cuando usted tiene una categoría de datos, usted necesita para convertir. Por categóricos me refiero, por ejemplo:

Las marcas de automóviles: Audi, BMW, Chevrolet... Id De Usuario: 1, 25, 26, 28...

Aunque los identificadores de usuario son números, son sólo etiquetas, y no significa nada en términos de continuidad, como la edad o la suma de dinero.

Así, el enfoque básico parece usar vectores binarios para codificar las categorías de:

Audi: 1, 0, 0... BMW: 0, 1, 0... Chevrolet: 0, 0, 1...

Es ACEPTAR cuando hay varias categorías, pero más allá de que se ve un poco ineficiente. Por ejemplo, cuando usted tiene 10 000 identificadores de usuario de codificar, es 10 000 características.

La pregunta es, ¿hay una mejor manera? Tal vez uno relacionado con las probabilidades?

Preguntado el 26 de Enero, 2012 por Bob

Answer 1

2 Respuestas

Answer 2

6voto

On Freund Puntos 3479

Siempre se puede tratar su id de usuario como bolsa de palabras: la mayoría del texto de los clasificadores pueden lidiar con cientos de miles de dimensiones, cuando la información es escasa (muchos ceros que usted no necesita almacenar de forma explícita en la memoria, por ejemplo, si usted usa Comprimido Escasa Filas de representación para los datos de la matriz).

Sin embargo, la pregunta es: ¿tiene sentido w.r.t. que problema específico para el tratamiento de los identificadores de usuario como características? No tendría más sentido denormalize su relación de datos y el uso de las funciones de usuario (edad, ubicación, char-ngrams del apodo en línea, historial de transacciones...) en lugar de su id?

Usted también puede realizar la agrupación de su prima de usuario de vectores y el uso de la N superior más cercano de los centros de identificación de características activadas para que en lugar del id de usuario.

Respondido el 26 de Enero, 2012 por On Freund (3479 Puntos )

Answer 3

1voto

S Pike Puntos 1

Equilátero de codificación es probablemente lo que usted está buscando cuando se trata de codificar las clases en una red neuronal. Se tiende a funcionar mejor que "1 de n" de la codificación que se hace referencia en otros posts. Para la referencia, me permito sugerir: http://www.heatonresearch.com/wiki/Equilateral

Respondido el 22 de Mayo, 2014 por S Pike (1 Puntos )

Codificación categórica características de los números para el aprendizaje de máquina

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Codificación categórica características de los números para el aprendizaje de máquina

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: