16 votos

"Variable ficticia" frente a "variable indicadora" para datos nominales/categóricos

"Variable ficticia" y "variable indicadora" son etiquetas de uso frecuente para describir la pertenencia a una categoría con codificación 0/1; normalmente 0: No es miembro de la categoría, 1: Es miembro de la categoría.

El 26/11/2014 una búsqueda rápida en scholar.google.com (con comillas adjuntas) revela que "variable ficticia" se utiliza en unos 318.000 artículos, y "variable indicadora" se utiliza en unos 112.000 artículos. El término "variable ficticia" también tiene un significado en matemáticas no estadísticas de " variable vinculada ", lo que probablemente contribuya al mayor uso de la "variable ficticia" en los artículos indexados.

Mis preguntas relacionadas con el tema:

  1. ¿Son estos términos siempre sinónimos (dentro de la estadística)?
  2. ¿Se puede aplicar cualquiera de estos términos a otras formas de codificación categórica (por ejemplo codificación de efectos , Codificación Helmert, etc. )?
  3. ¿Qué razones estadísticas o disciplinarias hay para preferir un término a otro?

4 votos

Suelo utilizar "variable indicadora" para las condiciones binarias, por ejemplo, el sexo podría codificarse como male con valores 1 o 0 . Si hay una variable categórica con más de 2 categorías que luego se amplía en variables indicadoras para la pertenencia a cada nivel, utilizaría "variables ficticias" para describir ese conjunto de variables indicadoras.

2 votos

Creo que te refieres a sexo puede ser codificado como 1 o 0, género es una construcción mucho más complicada. (por lo demás, el sexo también puede ser más complicado) ;)

2 votos

Punto bien entendido, editado para sex .

13voto

jasonmray Puntos 1303

Yo diría que "variable ficticia" es una forma más general de referirse a (una de) la(s) variable(s) numérica(s) que representa(n) un predictor categórico; por tanto, el término se aplica también a las utilizadas en la codificación de Helmert & effect † . Esto se debe principalmente al uso generalizado de "dummy" para significar "sustituto". "Variable indicadora" lo relaciono con funciones indicadoras ‡ -por lo que sólo pueden ser uno o cero para indicar que se tiene o no se tiene alguna propiedad; por lo tanto, el término se aplica sólo a los utilizados en la codificación a nivel de referencia ※ . Por supuesto, algunas personas utilizan la "codificación ficticia" para referirse a la "codificación a nivel de referencia"; es de suponer que tienen una definición más restringida de "variables ficticias", o en todo caso deberían tenerla.

† Y si no llamas a esos "tontos", ¿qué hacer ¿Los llamas?

‡ Así que, por ejemplo, el maniquí $x_i$ es una variable indicadora para cuando el $i$ la persona $u_i$ es masculino (un miembro del conjunto $M$ ): $$ x_i=\boldsymbol{1}_\mathrm{M}(u_i)=\left\{ \begin{array}{l l} 1 & \mathrm{when}\ u_i \in M\\ 0 & \mathrm{when}\ u_i \notin M\\ \end{array}\right.$$

donde $\boldsymbol{1}_M(\cdot)$ es la función indicadora de la pertenencia a $M$ .

O, como ha señalado @gung, la codificación por niveles.

2 votos

Huh... ¿puede proporcionar enlaces a algunos recursos que motiven eso? En mi experiencia, la "variable ficticia" se utiliza mucho para la codificación 0/1. No estoy seguro de haber visto el uso de "dummy" como sugieres, y sé que otros lo usan en un sentido opuesto. Por ejemplo, Alkharusi, H. (2012) "Categorical Variables in Regression Analysis: A Comparison of Dummy and Effect Coding" Revista Internacional de Educación 4(2):202-210.

2 votos

No he dicho que la "variable ficticia" no se utilice para la codificación 0/1, sino que puede utilizarse en un sentido más general.

1 votos

De hecho, el mismo artículo que citas dice que, utilizando la codificación de efectos, "las variables ficticias toman los valores 1, 0 y -1". (Por supuesto, creo que deberían haber llamado "codificación ficticia" a otra cosa si van a decir eso).

7voto

Sean Hanley Puntos 2428

@Scortchi ha proporcionado una buena respuesta aquí. Permítanme añadir un pequeño punto. Incluso utilizando la definición más estricta de variable indicadora, esto todavía puede asociarse con (al menos) dos esquemas de codificación diferentes para los datos categóricos en un modelo de tipo regresión: a saber codificación del nivel de referencia y nivel significa codificación . Con la codificación de los medios de nivel, se tiene una variable categórica con $k$ niveles que se representan con $k$ variables indicadoras, pero no se incluye un vector de $1$ s para el intercepto (es decir, se suprime el intercepto). (Para una explicación más completa, con ejemplos de matrices de modelos, véase mi respuesta aquí: ¿Cómo puede la regresión logística tener un predictor factorial y ningún intercepto? ) Cuando sólo hay una única variable categórica, esto produce la salida del modelo de una manera simple y puede ser preferida por algunas personas. (Para un ejemplo en el que el uso de este esquema facilita las comparaciones de interés, véase mi respuesta aquí: ¿Por qué los valores estimados de un mejor predictor lineal insesgado (BLUP) difieren de un mejor estimador lineal insesgado (BLUE)? )

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X