Una variable categórica con $k$ categorías distintas se suele asignar a $k - 1$ Indicadores o variables ficticias con valores 1 y 0 (o, a veces, ausentes, NA o lo que sea). Se trata de una extensión de una única variable binaria o dicotómica que es una propiedad que se puede codificar como 1 y 0, para presente o ausente, empleado o desempleado, sobrevivido o no, etc.
No creo que haya reglas rígidas sobre un valor superior de $k$ . Si se adapta a su análisis y tiene un conjunto de datos lo suficientemente grande, dispare. Si tiene una variable categórica que quiere utilizar, y tiene 20 o 200 categorías, no suele ser cierto que haya una variable medida alternativa en una escala entera o real.
Por ejemplo, los economistas y otros científicos sociales con datos de panel o longitudinales suelen ajustar un término para cada año de una serie para captar los efectos temporales. O pueden utilizar un indicador para cada mes con el fin de captar la estacionalidad: con los datos socioeconómicos de muchos países, diciembre suele ser muy diferente de noviembre o enero, y agosto puede ser muy diferente de julio o septiembre, dadas las vacaciones, los días especiales, etc. Sustituye tus propios ejemplos de lugares con diferentes fiestas o temporadas especiales en función de la religión o la cultura.
Los años de educación formal (completados) es otra variable que en cierto sentido es un recuento, pero completar la escuela secundaria, o completar un primer grado, a menudo tiene implicaciones para decir las perspectivas de empleo o muchas otras variables que significan que los efectos de la duración de la educación se manejan mejor a través de un conjunto de variables indicadoras.
El inconveniente de tener muchas variables indicadoras como predictores en un modelo incluye
-
Estimar muchos parámetros consume grados de libertad y eso puede importarle o no.
-
Ajustar muchos indicadores puede ser una forma de corregir un predictor que considera secundario respecto a su interés principal, o es una fuente de complicación que puede lamentar.
-
Las categorías raras pueden ser difíciles de encajar porque los individuos pueden ser una muestra peculiar.
Notas sobre la terminología:
-
El término único se utiliza a menudo, como en tu post original, pero el significado tradicional de único como el significado de ocurrir una vez sólo implica para mí que distintivo es un término mucho mejor.
-
En algunos ámbitos, el término variable ficticia se utiliza (mucho) más frecuentemente que la variable indicadora. Si es la jerga técnica predominante en su campo, que así sea. Sin embargo, he oído historias de horror en las que expresiones como "maniquí de género" o "maniquí de raza" han sido muy malinterpretadas por personas no estadísticas o menos estadísticas como algo despectivo o incluso ofensivo, así que cuidado. Nunca he oído que variable indicadora ha sido malinterpretado.
Nota: No he intentado discutir las ideas de la página que mencionas.