11 votos

Problemas de trampas variables ficticias

Estoy ejecutando una gran regresión OLS donde todas las variables independientes (alrededor de 400) son variables ficticias. Si se incluyen todas, hay una multicolinealidad perfecta (la trampa de la variable ficticia), así que tengo que omitir una de las variables antes de ejecutar la regresión.

Mi primera pregunta es, ¿qué variable debe ser omitida? He leído que es mejor omitir una variable que esté presente en muchas de las observaciones que una que esté presente en sólo unas pocas (por ejemplo, si casi todas las observaciones son "masculinas" o "femeninas" y sólo unas pocas son "desconocidas", omitir "masculina" o "femenina"). ¿Se justifica esto?

Después de ejecutar la regresión con una variable omitida, soy capaz de estimar el valor del coeficiente de la variable omitida porque sé que la media global de todas mis variables independientes debería ser 0. Así que utilizo este hecho para desplazar los valores del coeficiente de todas las variables incluidas, y obtener una estimación de la variable omitida. Mi siguiente pregunta es si hay alguna técnica similar que pueda usarse para estimar el error estándar del valor del coeficiente de la variable omitida. Tal como está, tengo que volver a ejecutar la regresión omitiendo una variable diferente (e incluyendo la variable que había omitido en la primera regresión) para adquirir una estimación del error estándar para el coeficiente de la variable originalmente omitida.

Por último, observo que las estimaciones del coeficiente que obtengo (después de volver a centrar alrededor de cero) varían ligeramente dependiendo de la variable que se omite. En teoría, ¿sería mejor hacer varias regresiones, cada una omitiendo una variable diferente, y luego promediar los coeficientes estimados de todas las regresiones?

8voto

simmosn Puntos 304

Deberías obtener las mismas estimaciones sin importar la variable que omitas; la coeficientes pueden ser diferentes, pero las estimaciones de determinadas cantidades o expectativas debería ser la misma en todos los modelos.

En un caso simple, que $x_i=1$ para los hombres y 0 para las mujeres. Entonces, tenemos el modelo: $$ \begin {align*} E[y_i \mid x_i] &= x_iE[y_i \mid x_i = 1] + (1 - x_i)E[y_i \mid x_i = 0] \\ &= E[y_i \mid x_i=0] + \left [E[y_i \mid x_i= 1] - E[y_i \mid x_i=0] \right ]x_i \\ &= \beta_0 + \beta_1 x_i. \end {align*}$$ Ahora, dejemos $z_i=1$ para las mujeres. Luego $$ \begin {align*} E[y_i \mid z_i] &= z_iE[y_i \mid z_i = 1] + (1 - z_i)E[y_i \mid z_i = 0] \\ &= E[y_i \mid z_i=0] + \left [E[y_i \mid z_i= 1] - E[y_i \mid z_i=0] \right ]z_i \\ &= \gamma_0 + \gamma_1 z_i . \end {align*}$$ El valor esperado de $y$ para las mujeres es $ \beta_0 $ y también $ \gamma_0 + \gamma_1 $ . Para los hombres, es $ \beta_0 + \beta_1 $ y $ \gamma_0 $ .

Estos resultados muestran cómo se relacionan los coeficientes de los dos modelos. Por ejemplo, $ \beta_1 = - \gamma_1 $ . Un ejercicio similar utilizando sus datos debería mostrar que los "diferentes" coeficientes que se obtienen son sólo sumas y diferencias de unos y otros.

4voto

Mike Moore Puntos 641

James, en primer lugar por qué el análisis de regresión, pero no ANOVA (hay muchos especialistas en este tipo de análisis que podrían ayudarte)? El pros para ANOVA es que todo lo que realmente le interesa son las diferencias en los medios de los diferentes grupos descritos por combinaciones de variables ficticias (categorías o perfiles únicos). Bueno, si estudias los impactos de cada una de las variables categóricas que incluyes, también puedes hacer una regresión.

Creo que el tipo de datos que tiene aquí se describe en el sentido de análisis conjunto Muchos atributos del objeto (sexo, edad, educación, etc.), cada uno de ellos con varias categorías, por lo que se omite todo el perfil más grande, no sólo una variable ficticia. Una práctica común es codificar las categorías dentro del atributo de la siguiente manera (esto enlace puede ser útil, probablemente no se hace un análisis conjunto aquí, pero la codificación es similar): supongamos que tienes $n$ categorías (tres, como usted sugirió, hombre, mujer, desconocido) entonces, las dos primeras están codificadas como de costumbre usted incluye dos maniquíes (hombre, mujer), dando $(1, 0)$ si es varón, $(0, 1)$ si es mujer, y $(-1, -1)$ si no se conoce. De esta manera, los resultados se colocarán en torno al término de la interceptación. Sin embargo, puede codificar de otra manera, pero perderá la ventaja de interpretación mencionada. Para resumir, se elimina una categoría de cada categoría y codificar sus observaciones de la manera descrita. También incluye el término de intercepción.

Bueno, omitir las categorías del perfil más grande me parece bien, aunque no tan importante, al menos no está vacío, creo. Dado que codificas las variables de manera específica, la significación estadística conjunta de las variables ficticias incluidas (ambas masculinas y femeninas, podrían ser probadas por la prueba F) implican la significación de la omitida.

Puede suceder que los resultados sean ligeramente diferentes, pero puede ser que sea la codificación errónea la que influya en esto

1voto

whauser Puntos 108

Sin saber la naturaleza exacta de su análisis, ¿ha considerado la codificación de los efectos? De esta manera cada variable representaría el efecto de ese rasgo/atributo frente a la gran media global en lugar de alguna categoría particular omitida. Creo que todavía te falta un coeficiente para una de las categorías/atributos - a la que le asignas un -1. Aún así, con esta cantidad de maniquíes, creo que la gran media sería un grupo de comparación más significativo que cualquier categoría particular omitida.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X