Muchos algoritmos de aprendizaje automático, por ejemplo las redes neuronales, esperar a lidiar con los números. Así que, cuando usted tiene una categoría de datos, usted necesita para convertir. Por categóricos me refiero, por ejemplo:
Las marcas de automóviles: Audi, BMW, Chevrolet... Id De Usuario: 1, 25, 26, 28...
Aunque los identificadores de usuario son números, son sólo etiquetas, y no significa nada en términos de continuidad, como la edad o la suma de dinero.
Así, el enfoque básico parece usar vectores binarios para codificar las categorías de:
Audi: 1, 0, 0... BMW: 0, 1, 0... Chevrolet: 0, 0, 1...
Es ACEPTAR cuando hay varias categorías, pero más allá de que se ve un poco ineficiente. Por ejemplo, cuando usted tiene 10 000 identificadores de usuario de codificar, es 10 000 características.
La pregunta es, ¿hay una mejor manera? Tal vez uno relacionado con las probabilidades?