3 votos

¿Ventaja de la transformación interna frente a los métodos OLS combinados con variables ficticias?

En primer lugar, aplique la transformación interna (transformación de efectos fijos) a un conjunto de datos de panel. A continuación, aplique el método OLS combinado con variables ficticias para cada unidad transversal en el mismo conjunto de datos de panel.

Cuando se comparan los resultados de ambas regresiones se obtienen exactamente las mismas estimaciones de los coeficientes para las variables exógenas, también los errores estándar y los valores t son los mismos.

Incluso las estimaciones de las variables ficticias específicas de la unidad son iguales a los efectos no observados específicos de la unidad que se pueden estimar después de aplicar la regresión de transformación interna. Hay una advertencia a este respecto: Hay que añadir el intercepto de la regresión OLS combinada a la estimación de la variable ficticia para obtener la estimación de los efectos no observados respectivos a partir de la transformación interna.

La única diferencia que he descubierto es que la transformación interna parece ser menos eficiente en la estimación de los efectos no observados específicos de la unidad. Así que, ceteris paribus, los valores p de las estimaciones de las variables ficticias específicas de la unidad para la regresión de variables ficticias de MCO combinadas son menores que los valores p de los efectos no observados específicos de la unidad de la transformación interna (no estoy seguro de por qué ocurre esto).

Por lo tanto, la realización de una regresión OLS agrupada con variables ficticias específicas de la unidad parece ser superior a la realización de una regresión básica dentro de la transformación. Sin embargo, esta última parece aplicarse con más frecuencia. ¿Hay alguna razón para ello? Volviendo al título de este artículo: ¿Existe una ventaja de la transformación interna sobre el método OLS combinado con variables ficticias?

EDITAR:
Así que, según he entendido, parece que sólo hay una ventaja computacional de la transformación interior. Ahora, la pregunta esencial para mí es: ¿Por qué los valores p de las estimaciones de la variable ficticia específica de la unidad para la regresión ficticia OLS combinada son más bajos que los valores p de los efectos no observados específicos de la unidad de la transformación interna? Esto realmente me desconcierta. Porque, en el caso de los paneles pequeños (en los que la carga computacional es baja), la regresión de las variables ficticias sería más ventajosa que la transformación interna, ya que produce estimaciones de los efectos no observados (variables ficticias) con valores p más bajos

EDITAR #2: Véase la respuesta de @ChristophHanck, que resolvió el misterio de obtener diferentes valores p. Incluí incorrectamente un intercepto en la regresión de dummies OLS combinada. Después de excluir el intercepto, los valores p eran los mismos para ambos modelos.

4voto

Christoph Hanck Puntos 4143

Como se indica en los comentarios, dado que cualquiera de las dos formas de calcular los efectos fijos conduce a estimaciones numéricamente iguales, tampoco debería haber ninguna razón para esperar que cualquiera de los dos enfoques sea más "eficiente" (en el sentido estadístico de la propiedad de un estimador) y, por tanto, conduzca a valores p más pequeños. Tampoco es el caso, como demuestra esta ilustración:

library(plm)

# generate some data
m = 2
n = 20
beta = -2
alpha = rep(runif(n), each=m)
X <- rnorm(m*n)
u <- rnorm(m*n)
y <- alpha + X*beta + u

paneldata <- data.frame(rep(1:n,each=m),rep(1:m,n), y, X) # first two columns are for plm to understand the panel structure
within.reg <- plm(y~X, data = paneldata, model = "within")
FEs <- fixef(within.reg) # retrieve fixed effect estimates
summary(FEs) # report these along with p-values

# dummy approach
dummy.matrix <- matrix(c(rep(1,m), rep(0,n*m)), nrow = n*m, ncol= n) # throws a warning, but indeed intended here as vector is longer than column dimension so that the recycling R then does starts at the right position in each new column
summary(lm(y~dummy.matrix+X-1)) # intercept suppressed to avoid nmulticollinearity, as we have one dummy per unit

# same p-values:
all.equal(summary(FEs)[,4], summary(lm(y~dummy.matrix+X-1))$coefficients[1:n,4], check.attributes = F) # TRUE

El numérico Las ventajas que menciono a continuación sólo se refieren al trabajo que tiene que hacer el ordenador; son irrelevantes para la precisión estadística del estimador y, por tanto, no tienen ningún impacto en los valores p, etc.

Un punto en el que nuestros enfoques podrían diferir, que se me ocurre, es que usted habla de un intercepto global que añade en una regresión agrupada (que asciende a summary(lm(y~dummy.matrix+X)) en el código anterior). Entonces, los interceptos específicos del individuo medirían la distancia a ese intercepto general (omitiendo una categoría que sirve como categoría de referencia) y, por tanto, también producirían diferentes estimaciones puntuales. En consecuencia, los valores p serían para la hipótesis de que los interceptos difieren significativamente del intercepto general, y no de cero.

Por supuesto, si se ponen a prueba diferentes hipótesis, ya no hay razón para esperar que los valores p coincidan.

La situación es análoga al ejemplo de los libros de texto de evitar la trampa de las variables ficticias de especificar un intercepto y una, digamos, variable ficticia para las mujeres o ningún intercepto y variables ficticias tanto para los hombres como para las mujeres (suponiendo, por supuesto, que todo el mundo en el conjunto de datos se identifique como hombre o mujer).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X