"Variable ficticia" frente a "variable indicadora" para datos nominales/categóricos

Question

"Variable ficticia" frente a "variable indicadora" para datos nominales/categóricos

Preguntado el 26 de Noviembre, 2014: Cuando se hizo la pregunta
744 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

"Variable ficticia" y "variable indicadora" son etiquetas de uso frecuente para describir la pertenencia a una categoría con codificación 0/1; normalmente 0: No es miembro de la categoría, 1: Es miembro de la categoría.

El 26/11/2014 una búsqueda rápida en scholar.google.com (con comillas adjuntas) revela que "variable ficticia" se utiliza en unos 318.000 artículos, y "variable indicadora" se utiliza en unos 112.000 artículos. El término "variable ficticia" también tiene un significado en matemáticas no estadísticas de " variable vinculada ", lo que probablemente contribuya al mayor uso de la "variable ficticia" en los artículos indexados.

Mis preguntas relacionadas con el tema:

¿Son estos términos siempre sinónimos (dentro de la estadística)?
¿Se puede aplicar cualquiera de estos términos a otras formas de codificación categórica (por ejemplo codificación de efectos , Codificación Helmert, etc. )?
¿Qué razones estadísticas o disciplinarias hay para preferir un término a otro?

Preguntado el 26 de Noviembre, 2014 por GenericTypeTea

4 votos

Suelo utilizar "variable indicadora" para las condiciones binarias, por ejemplo, el sexo podría codificarse como male con valores 1 o 0 . Si hay una variable categórica con más de 2 categorías que luego se amplía en variables indicadoras para la pertenencia a cada nivel, utilizaría "variables ficticias" para describir ese conjunto de variables indicadoras.

Comentado el 26 de Noviembre, 2014 por Adam

2 votos

Creo que te refieres a sexo puede ser codificado como 1 o 0, género es una construcción mucho más complicada. (por lo demás, el sexo también puede ser más complicado) ;)

Comentado el 26 de Noviembre, 2014 por GenericTypeTea

2 votos

Punto bien entendido, editado para sex .

Comentado el 26 de Noviembre, 2014 por Adam

Mostrar 6 comentarios más

Answer 1

2 Respuestas

Answer 2

13voto

jasonmray Puntos 1303

Yo diría que "variable ficticia" es una forma más general de referirse a (una de) la(s) variable(s) numérica(s) que representa(n) un predictor categórico; por tanto, el término se aplica también a las utilizadas en la codificación de Helmert & effect † . Esto se debe principalmente al uso generalizado de "dummy" para significar "sustituto". "Variable indicadora" lo relaciono con funciones indicadoras ‡ -por lo que sólo pueden ser uno o cero para indicar que se tiene o no se tiene alguna propiedad; por lo tanto, el término se aplica sólo a los utilizados en la codificación a nivel de referencia ※ . Por supuesto, algunas personas utilizan la "codificación ficticia" para referirse a la "codificación a nivel de referencia"; es de suponer que tienen una definición más restringida de "variables ficticias", o en todo caso deberían tenerla.

† Y si no llamas a esos "tontos", ¿qué hacer ¿Los llamas?

‡ Así que, por ejemplo, el maniquí $x_i$ es una variable indicadora para cuando el $i$ la persona $u_i$ es masculino (un miembro del conjunto $M$ ): $$ x_i=\boldsymbol{1}_\mathrm{M}(u_i)=\left\{ \begin{array}{l l} 1 & \mathrm{when}\ u_i \in M\\ 0 & \mathrm{when}\ u_i \notin M\\ \end{array}\right.$$

donde $\boldsymbol{1}_M(\cdot)$ es la función indicadora de la pertenencia a $M$ .

O, como ha señalado @gung, la codificación por niveles.

Respondido el 26 de Noviembre, 2014 por jasonmray (1303 Puntos )

2 votos

Huh... ¿puede proporcionar enlaces a algunos recursos que motiven eso? En mi experiencia, la "variable ficticia" se utiliza mucho para la codificación 0/1. No estoy seguro de haber visto el uso de "dummy" como sugieres, y sé que otros lo usan en un sentido opuesto. Por ejemplo, Alkharusi, H. (2012) "Categorical Variables in Regression Analysis: A Comparison of Dummy and Effect Coding" Revista Internacional de Educación 4(2):202-210.

Comentado el 26 de Noviembre, 2014 por GenericTypeTea

2 votos

No he dicho que la "variable ficticia" no se utilice para la codificación 0/1, sino que puede utilizarse en un sentido más general.

Comentado el 26 de Noviembre, 2014 por jasonmray

1 votos

De hecho, el mismo artículo que citas dice que, utilizando la codificación de efectos, "las variables ficticias toman los valores 1, 0 y -1". (Por supuesto, creo que deberían haber llamado "codificación ficticia" a otra cosa si van a decir eso).

Comentado el 26 de Noviembre, 2014 por jasonmray

Mostrar 4 comentarios más

Answer 3

7voto

Sean Hanley Puntos 2428

@Scortchi ha proporcionado una buena respuesta aquí. Permítanme añadir un pequeño punto. Incluso utilizando la definición más estricta de variable indicadora, esto todavía puede asociarse con (al menos) dos esquemas de codificación diferentes para los datos categóricos en un modelo de tipo regresión: a saber codificación del nivel de referencia y nivel significa codificación . Con la codificación de los medios de nivel, se tiene una variable categórica con $k$ niveles que se representan con $k$ variables indicadoras, pero no se incluye un vector de $1$ s para el intercepto (es decir, se suprime el intercepto). (Para una explicación más completa, con ejemplos de matrices de modelos, véase mi respuesta aquí: ¿Cómo puede la regresión logística tener un predictor factorial y ningún intercepto? ) Cuando sólo hay una única variable categórica, esto produce la salida del modelo de una manera simple y puede ser preferida por algunas personas. (Para un ejemplo en el que el uso de este esquema facilita las comparaciones de interés, véase mi respuesta aquí: ¿Por qué los valores estimados de un mejor predictor lineal insesgado (BLUP) difieren de un mejor estimador lineal insesgado (BLUE)? )

Respondido el 23 de Enero, 2015 por Sean Hanley (2428 Puntos )

"Variable ficticia" frente a "variable indicadora" para datos nominales/categóricos

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

"Variable ficticia" frente a "variable indicadora" para datos nominales/categóricos

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: