Entiendo la lógica de la codificación para el análisis de datos. Mi pregunta a continuación es sobre el uso de un código específico.
- ¿Hay alguna razón por la que el género se codifica a menudo como 0 para mujer y 1 para hombre?
- ¿Por qué se considera esta codificación 'estándar'?
- Compara esto con Mujer = 1 y Hombre = 2. ¿Hay algún problema con esta codificación?
16 votos
Usar un esquema de codificación 0/1 es esencialmente útil al aplicar modelos de regresión, entre otros, aunque existen varios esquemas de codificación posibles, por ejemplo, -1/1 (pero cambiará la interpretación de los coeficientes de regresión). No debe confundirse con la entrada de datos (es decir, lo que realmente se introduce en la base de datos). En este caso, es mejor almacenar las etiquetas completas. Conviértalas en valores numéricos o construya una matriz de diseño dedicada cuando construya su modelo de regresión. De lo contrario, le deseo buena suerte para decir qué significan los 0 y los 1 en 5 años.
0 votos
He visto el género codificado en la base de datos como masculino, femenino y desconocido.
4 votos
Creo que esta pregunta se considera mejor como dos preguntas confundidas. La pregunta más grande es por qué usar codificación 0-1 en lugar de cualquier otra para una variable indicadora o ficticia. La pregunta más pequeña es por qué usar 1 para hombre y 0 para mujer, a lo cual una respuesta breve es que muchas otras codificaciones están en uso, incluyendo la opuesta de 1 para mujer, etc., y también varias codificaciones complejas que permiten el género desconocido y otras categorías de género.