4 votos

¿Hasta qué número de valores distintos debo transformar una variable categórica en una variable ficticia?

Cuando se trabaja con variables categóricas, es común hacer algún tipo de transformación. Por lo general, la gente aplica una codificación de una sola vez. En pocas palabras, transformamos una variable categórica en una variable ficticia. Sin embargo, puede haber algunos problemas al hacer esto. Por ejemplo, digamos que se trabaja con una variable "ciudad". A veces no será un movimiento inteligente transformar esta variable en varias variables ficticias porque habrá docenas de variables ficticias después de la transformación. Sin embargo, si está trabajando con una variable como "estado civil", parece que está bien hacer la codificación de una sola vez.

Sé que tenemos otro tipo de transformaciones para variables categóricas, como las mencionadas por Andre Ye en el post https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809 .

Dicho esto, ¿hay un número de valores distintos que debe tener una variable categórica si quiero transformarla en una dummy? Si la variable tiene 5 valores distintos, creo que está bien hacer la transformación. Si tiene 6 valores distintos, también me parece bien. ¿Pero qué pasa con 7? 8? 9? ¿Hasta qué número de valores distintos podríamos transformar una categórica en una ficticia?

4voto

Nick Cox Puntos 22819

Una variable categórica con $k$ categorías distintas se suele asignar a $k - 1$ Indicadores o variables ficticias con valores 1 y 0 (o, a veces, ausentes, NA o lo que sea). Se trata de una extensión de una única variable binaria o dicotómica que es una propiedad que se puede codificar como 1 y 0, para presente o ausente, empleado o desempleado, sobrevivido o no, etc.

No creo que haya reglas rígidas sobre un valor superior de $k$ . Si se adapta a su análisis y tiene un conjunto de datos lo suficientemente grande, dispare. Si tiene una variable categórica que quiere utilizar, y tiene 20 o 200 categorías, no suele ser cierto que haya una variable medida alternativa en una escala entera o real.

Por ejemplo, los economistas y otros científicos sociales con datos de panel o longitudinales suelen ajustar un término para cada año de una serie para captar los efectos temporales. O pueden utilizar un indicador para cada mes con el fin de captar la estacionalidad: con los datos socioeconómicos de muchos países, diciembre suele ser muy diferente de noviembre o enero, y agosto puede ser muy diferente de julio o septiembre, dadas las vacaciones, los días especiales, etc. Sustituye tus propios ejemplos de lugares con diferentes fiestas o temporadas especiales en función de la religión o la cultura.

Los años de educación formal (completados) es otra variable que en cierto sentido es un recuento, pero completar la escuela secundaria, o completar un primer grado, a menudo tiene implicaciones para decir las perspectivas de empleo o muchas otras variables que significan que los efectos de la duración de la educación se manejan mejor a través de un conjunto de variables indicadoras.

El inconveniente de tener muchas variables indicadoras como predictores en un modelo incluye

  • Estimar muchos parámetros consume grados de libertad y eso puede importarle o no.

  • Ajustar muchos indicadores puede ser una forma de corregir un predictor que considera secundario respecto a su interés principal, o es una fuente de complicación que puede lamentar.

  • Las categorías raras pueden ser difíciles de encajar porque los individuos pueden ser una muestra peculiar.

Notas sobre la terminología:

  1. El término único se utiliza a menudo, como en tu post original, pero el significado tradicional de único como el significado de ocurrir una vez sólo implica para mí que distintivo es un término mucho mejor.

  2. En algunos ámbitos, el término variable ficticia se utiliza (mucho) más frecuentemente que la variable indicadora. Si es la jerga técnica predominante en su campo, que así sea. Sin embargo, he oído historias de horror en las que expresiones como "maniquí de género" o "maniquí de raza" han sido muy malinterpretadas por personas no estadísticas o menos estadísticas como algo despectivo o incluso ofensivo, así que cuidado. Nunca he oído que variable indicadora ha sido malinterpretado.

Nota: No he intentado discutir las ideas de la página que mencionas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X