Digamos que quiero crear una Logística Clasificador para una película de M. Mis características sería algo así como la edad de la persona, sexo, ocupación, ubicación. Así, del conjunto de entrenamiento sería algo como:
- Edad Género Ocupación Lugar Como(1)/No Me Gusta(0)
- 23 M Software 1
- 24 F Médico reino unido 0
y así sucesivamente.... Ahora mi pregunta es ¿cómo debo escala y representar a mi cuenta. Una manera en que yo pensaba: Dividir la edad como la edad de los grupos, de 18 a 25 años, de 25 a 35 años, 35-arriba, de Género como M,F, Ubicación, como estados unidos, reino unido, entre Otros. Ahora crear un archivo binario característica de todos estos valores, por lo tanto la edad va a tener 3 binario características de cada una correspondiente a un grupo de edad y así sucesivamente. Así, un 28 años Masculino de Estados Unidos sería representado como 010 10 100 (010-> Grupo de Edad de 25 a 35 años, 10 -> Masculino, 100 -> Estados Unidos)
Lo que podría ser la mejor forma de representar las características aquí ? También, me di cuenta de que en algún correo.gs. de sklearn que todas las funciones se han ampliado/normalizado de alguna manera, por ejemplo, el Género está representado por dos valores, 0.0045 y -.0.0045 para hombres y mujeres. No tengo ni idea de cómo hacer escala/mormalization como este ?