29 votos

¿Por qué el género típicamente se codifica como 0/1 en vez de 1/2, por ejemplo?

Entiendo la lógica de la codificación para el análisis de datos. Mi pregunta a continuación es sobre el uso de un código específico.

  • ¿Hay alguna razón por la que el género se codifica a menudo como 0 para mujer y 1 para hombre?
  • ¿Por qué se considera esta codificación 'estándar'?
  • Compara esto con Mujer = 1 y Hombre = 2. ¿Hay algún problema con esta codificación?

16 votos

Usar un esquema de codificación 0/1 es esencialmente útil al aplicar modelos de regresión, entre otros, aunque existen varios esquemas de codificación posibles, por ejemplo, -1/1 (pero cambiará la interpretación de los coeficientes de regresión). No debe confundirse con la entrada de datos (es decir, lo que realmente se introduce en la base de datos). En este caso, es mejor almacenar las etiquetas completas. Conviértalas en valores numéricos o construya una matriz de diseño dedicada cuando construya su modelo de regresión. De lo contrario, le deseo buena suerte para decir qué significan los 0 y los 1 en 5 años.

0 votos

He visto el género codificado en la base de datos como masculino, femenino y desconocido.

4 votos

Creo que esta pregunta se considera mejor como dos preguntas confundidas. La pregunta más grande es por qué usar codificación 0-1 en lugar de cualquier otra para una variable indicadora o ficticia. La pregunta más pequeña es por qué usar 1 para hombre y 0 para mujer, a lo cual una respuesta breve es que muchas otras codificaciones están en uso, incluyendo la opuesta de 1 para mujer, etc., y también varias codificaciones complejas que permiten el género desconocido y otras categorías de género.

45voto

Eric Davis Puntos 1542

Razones para preferir la codificación de variables binarias en cero-uno:

  • La media de una variable cero-uno representa la proporción en la categoría representada por el valor uno (por ejemplo, el porcentaje de hombres).
  • En una regresión simple $y = a + bx$ donde $x$ es la variable cero-uno, la constante tiene una interpretación directa (por ejemplo, $a$ es la media de $y$ para las mujeres).
  • Cualquier codificación de una variable binaria donde la diferencia entre los dos valores sea uno (es decir, cero-uno, pero también uno-dos) da una interpretación directa al coeficiente de regresión (por ejemplo, $b$ es el efecto de pasar de mujer a hombre en y).

Puntos diversos sobre la codificación de variables binarias:

  • Cualquier codificación de una variable binaria que conserve el orden de las categorías (por ejemplo, femenino = 0, masculino = 1; femenino = 1, masculino = 2; femenino = 1007, masculino = 2000; etc.) no afectará la correlación de la variable binaria con otras variables.
  • Cualquier tabla que reporte una variable binaria de esta manera debe dejar claro cómo se codificó la variable. También puede ser útil etiquetar la variable por la categoría que representa el valor de uno: por ejemplo, y = a + b * Hombre en lugar de y = a + b * Género.
  • Para algunas variables binarias, una categoría debería ser codificada como uno de manera más natural. Por ejemplo, al analizar la diferencia entre tratamiento y control, el control debería ser cero, y el tratamiento debería ser uno, porque el coeficiente de regresión se interpreta mejor como el efecto del tratamiento.
  • Invertir las categorías (por ejemplo, hacer femenino = 1 y masculino = 0, en lugar de femenino = 0 y masculino = 1) cambiará el signo de las correlaciones y los coeficientes de regresión.
  • En el caso del género, típicamente no hay una razón natural para codificar la variable femenino = 0, masculino = 1, en lugar de masculino = 0, femenino = 1. Sin embargo, la convención puede sugerir que una codificación es más familiar para el lector; o elegir una codificación que haga que el coeficiente de regresión sea positivo puede facilitar la interpretación. También, en algunos contextos, un género puede ser considerado como la categoría de referencia; por ejemplo, si se estuviera estudiando el efecto de ser mujer en una profesión dominada por hombres en los ingresos, podría tener sentido codificar masculino = 0 y femenino = 1, para hablar del efecto de ser mujer.
  • Escalando los coeficientes de regresión de manera reflexiva puede tener un efecto poderoso en la interpretabilidad de los coeficientes de regresión. Andrew Gelman discute esto bastante; ver por ejemplo su documento de 2008 Escalar los inputs de regresión dividiendo por dos desviaciones estándar (PDF) en Statistics in Medicine, 27, 2865-2873.
  • La codificación de masculino y femenino como -1 y +1 es otra opción que puede proporcionar coeficientes significativos (ver "qué es la codificación de efectos").

19 votos

Uh, siempre pensé que la razón natural para codificar female = 0 y male = 1 era "anatomía"...

2 votos

@matt divertido. Nunca lo había pensado de esa manera. Siempre me había visto influenciado por la perspectiva de mi licenciatura en Artes, donde te enseñan sobre cómo algunas feministas critican las ideologías que consideran a las mujeres definidas por la falta de algo poseído por los hombres. A través de esa lente, de manera algo humorística, la codificación de género se convierte en un problema político :-)

14 votos

Como hábito, siempre cambio el nombre de una variable de género a algo como "Femenino", para dejar claro lo que significa un esquema de codificación 0/1.

15voto

Alan Puntos 7273

Facilita la interpretación de los resultados. Supongamos que tienes algunos datos de altura:

Mujer A: 165
Mujer B: 170
Mujer C: 175
Hombre D: 170
Hombre E: 180
Hombre F: 190 

y tomaste una regresión de la forma Altura = a + b * Género + Residual.

Con la variable ficticia 0,1 obtendrías una estimación de a de 170 como la altura promedio de las mujeres y de b de 10 como la diferencia entre las alturas promedio de los hombres y las mujeres.

Con la variable ficticia 1,2 obtendrías una estimación de a de 160, lo cual es más difícil de interpretar.

0 votos

Gracias. Estoy aprendiendo estadística a la 'velocidad de la luz' porque es un requisito de mi nuevo trabajo. ¿Se aplicaría aún este código al análisis de correlación?

1 votos

@Adhesh Si te refieres a la correlación entre dos variables cuantitativas, entonces no hay ningún problema de codificación: simplemente usa las medidas originales. Si tu pregunta es sobre la asociación entre dos variables cualitativas, entonces podrías considerar hacer una nueva pregunta, pero francamente no hay mucha dificultad en este caso (a menos que desees usar puntuaciones espaciadas de manera desigual para las categorías de variables, pero esto ha sido respondido en otro lugar de este sitio).

5 votos

@Adesh Codificar un binario 1/2 o 0/1 no afectará su coeficiente de correlación. 0/1 también tiene la ventaja de que la media de la variable será el porcentaje de hombres o mujeres, dependiendo de cuál sea. Otros esquemas de codificación pueden ser útiles para interpretar diferentes tipos de análisis.

2voto

Matthew Steeples Puntos 4637

Yo había asumido que esto se debía a que el tipo de campo generalmente utilizado para almacenar el género es un campo de bits, y los campos de bits en SQL solo pueden tener los valores 0 o 1. Cuando se extrae los datos, salen como 0 o 1, y por eso obtienes esos valores en particular.

Si quisieras usar 1 y 2, tendrías que usar un tipo de campo más grande, lo que ocuparía más espacio y, por lo tanto, haría que toda la base de datos fuera ligeramente más grande.

0 votos

Como programador de SQL, esta fue también mi primera reacción. No estoy seguro de las razones matemáticas puras para utilizar 0 y 1 para el género, pero sé a ciencia cierta que parte del impulso provino de la necesidad de utilizar los tipos de datos más pequeños posibles. Los estándares de la industria se desarrollaron a partir de la costumbre y todos se alinearon. Puede valer la pena revisar la historia de los estándares de ANSI para esto. En la actualidad, hay un impulso para que los DBAs utilicen columnas de bytes o enteros pequeños para el género, para indicar excepciones inusuales como "entidad corporativa" o "indeterminado", pero muchas bases de datos antiguas aún reflejan el estándar antiguo.

1voto

Tao Zhyn Puntos 1036

Se han publicado muchas buenas razones hasta ahora, pero también debería ser reflexivo. ¿Por qué empezarías a contar en 1? Hace que muchos algoritmos numéricos sean mucho más complicados. El etiquetado comienza en 0, no en 1. Si aún no estás convencido de esto, tengo un buen ejemplo de por qué es importante en http://madhadron.com/?p=69

En cuanto a por qué las mujeres son 0 y los hombres son 1, recordemos que durante gran parte de su historia, es probable que un estadístico fuera un hombre heterosexual. Cuando se le pedía nombrar un sexo, probablemente la primera que venía a la mente era 'mujer'. Todo lo demás seguramente fue un accidente histórico y racionalización.

0 votos

Creo que el artículo referenciado ahora se puede encontrar en: madhadron.com/posts/…

-1voto

Adam Eivy Puntos 11

La norma ISO/IEC 5218 actualiza esta noción con el siguiente mapa:

0 = desconocido,
1 = masculino,
2 = femenino,
9 = no aplicable.

Esto es particularmente útil en idiomas donde 0 se convierte en un valor falso, como en JavaScript:

if ( !user.gender ) {
    promptForGender();
}

11 votos

Es importante tener en cuenta que este tipo de estándar es realmente para la transmisión y/o almacenamiento de datos. No es adecuado como estándar para el análisis de datos, que es específicamente de lo que trata la pregunta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X