4 votos

Eficiencia de las estimaciones beta con heteroscedasticidad

Necesito que se me aclare algo y es que cuando se tiene una varianza no constante, las estimaciones no estarán sesgadas pero serán un problema cuando se trate de las fórmulas de E.S. y la eficiencia. Por lo tanto, las estimaciones OLS serán ineficientes porque dan el mismo peso a los valores atípicos. Para mí tiene sentido que dar igual peso a estos valores atípicos cause problemas, pero ¿por qué iba a causar problemas si estos puntos de datos son genuinos y proporcionan información?

7voto

Sean Hanley Puntos 2428

En general, si hay valores atípicos, provocan un sesgo. Los valores atípicos son datos que proceden de una población distinta del resto de los datos y/o de la población que se intenta modelar. Como resultado, las estimaciones de los parámetros reflejan la mezcla de la población que se busca y alguna porción de una población contaminante.

El problema de la eficiencia es diferente. Se puede pensar que la eficiencia es similar a la potencia estadística. La idea de la eficiencia es que se utiliza la información de la que se dispone de forma óptima. Si se tiene una varianza no constante, diferentes datos proporcionan diferentes cantidades de información sobre la media condicional de $Y$ en un punto determinado de $X$ . Está claro que si se da el mismo peso a cada punto, no se está utilizando la información de forma óptima, pero si se pueden asignar los pesos de acuerdo con la cantidad de información de cada punto, se puede conseguir una mayor eficiencia. Desde un punto de vista práctico, una mayor eficiencia puede significar que se tiene más poder para rechazar un falso nulo, por ejemplo.

He aquí una simple simulación, en R para demostrar esta idea:

set.seed(1)                        # this makes the simulation exactly reproducible
b0 = 10                            # this is the true value of the intercept
b1 = .5                            # this is the true value of the slope
n  = 10                            # this is the number of data I have at each point in X
x  = rep(c(0, 2, 4), each=n)       # these are the x data
wt = 1 / rep(c(1, 4, 16), each=n)  # these are a-priori correct weights
uw.p.vector = vector(length=10000) # these 2 vectors will hold the results of
w.p.vector  = vector(length=10000) #   the simulation

for(i in 1:10000){                        # I run this simulation 10k times
  y.x0 = rnorm(n, mean=b0,          sd=1) # here I am generating simulated data
  y.x2 = rnorm(n, mean=(b0 + 2*b1), sd=2) #  the SD at each point is different &
  y.x4 = rnorm(n, mean=(b0 + 4*b1), sd=4) #  the variances are 1, 4, & 16
  y    = c(y.x0, y.x2, y.x4)              # I put the data into a single vector
  unweighted.model = lm(y~x)              # I fit an identical model w/ the same data
  weighted.model   = lm(y~x, weights=wt)  #   w/o & then w/ the weights
  uw.p.vector[i]   = summary(unweighted.model)$coefficients[2,4]  # the p-values
  w.p.vector[i]    = summary(weighted.model)$coefficients[2,4]
}
mean(uw.p.vector<.05)  # using the unweighted regression, the power was ~39%
# [1] 0.3927
mean(w.p.vector<.05)   # w/ the weighted regression, the power was ~47%
# [1] 0.4732

En este caso, contrasto una regresión no ponderada con una regresión que pondera los datos en función de la información que ofrecen sobre la pendiente (conjunto de medias condicionales). Obsérvese que la cantidad de información es el recíproco de la varianza en un punto determinado de $X$ y que no lo estoy estimando, para esta demostración, estoy utilizando el valor correcto a-priori. (Lo bien que funcione esto cuando se estimen los pesos depende de lo buenas que sean las estimaciones).

Para entender la heteroscedasticidad más a fondo, puede ayudar a leer un par de otras respuestas que he proporcionado sobre el tema:

2voto

AdamSane Puntos 1825

El problema no es que se dé la misma importancia a los valores atípicos (si los datos se generan según el modelo correcto, las observaciones no serán realmente atípicas).

La cuestión que corresponde a lo que tú comentas es que se da igual peso a la información de diferente precisión, cuando se debería dar más peso a la información con mayor precisión (es decir, que se encuentra de media más cerca de la línea verdadera).

Pero aun así, es una cuestión de uso eficiente de la información. Es posible que el despilfarro de información (y las estimaciones más ruidosas que se derivan de ello) no le moleste especialmente.

Sin embargo, hay otro problema, de mayor envergadura. Este problema tiene que ver con los errores estándar de los coeficientes y, por tanto, con la inferencia, como las pruebas de hipótesis y los intervalos de confianza.

Si no se tiene en cuenta el hecho de que la varianza no es constante, los errores estándar de los coeficientes están sesgados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X