Estoy ejecutando una gran regresión OLS donde todas las variables independientes (alrededor de 400) son variables ficticias. Si se incluyen todas, hay una multicolinealidad perfecta (la trampa de la variable ficticia), así que tengo que omitir una de las variables antes de ejecutar la regresión.
Mi primera pregunta es, ¿qué variable debe ser omitida? He leído que es mejor omitir una variable que esté presente en muchas de las observaciones que una que esté presente en sólo unas pocas (por ejemplo, si casi todas las observaciones son "masculinas" o "femeninas" y sólo unas pocas son "desconocidas", omitir "masculina" o "femenina"). ¿Se justifica esto?
Después de ejecutar la regresión con una variable omitida, soy capaz de estimar el valor del coeficiente de la variable omitida porque sé que la media global de todas mis variables independientes debería ser 0. Así que utilizo este hecho para desplazar los valores del coeficiente de todas las variables incluidas, y obtener una estimación de la variable omitida. Mi siguiente pregunta es si hay alguna técnica similar que pueda usarse para estimar el error estándar del valor del coeficiente de la variable omitida. Tal como está, tengo que volver a ejecutar la regresión omitiendo una variable diferente (e incluyendo la variable que había omitido en la primera regresión) para adquirir una estimación del error estándar para el coeficiente de la variable originalmente omitida.
Por último, observo que las estimaciones del coeficiente que obtengo (después de volver a centrar alrededor de cero) varían ligeramente dependiendo de la variable que se omite. En teoría, ¿sería mejor hacer varias regresiones, cada una omitiendo una variable diferente, y luego promediar los coeficientes estimados de todas las regresiones?