8 votos

¿Estimador insesgado de la varianza o estimador de máxima verosimilitud?

Sé que $\frac{1}{n-1}\sum_{i=1}^{n}(X-\bar{X_{n}})^{2}$ es un estimador insesgado de la varianza.

Pensé que un estimador de este tipo sería útil cuando no se sabe de qué distribución proceden los datos de que se dispone.

Ahora bien, dado que tengo un conjunto de datos y sé cuál es la distribución subyacente de las observaciones. ¿No debería preferir un Estimador de Máxima Verosimilitud para la varianza, incluso si está sesgado, ya que, obviamente, hace uso de la distribución subyacente de los datos sobre el estimador general de la varianza citado anteriormente, que no es para ninguna distribución específica?

Gracias

10voto

Boar Puntos 48

Creo que, en general, la respuesta es sí. Si sabe más sobre una distribución, debería utilizar esa información. En algunas distribuciones la diferencia es mínima, pero en otras puede ser considerable.

Como ejemplo, consideremos la distribución de Poisson. En este caso, la media y la varianza son iguales al parámetro $\lambda$ y la estimación ML de $\lambda$ es la media muestral.

Los gráficos siguientes muestran 100 simulaciones de estimación de la varianza tomando la media o la varianza muestral. El histograma etiquetado X1 es el que utiliza la media muestral, y X2 es el que utiliza la varianza muestral. Como puede ver, ambos son insesgados, pero la media es una estimación mucho mejor de la varianza. $\lambda$ y, por tanto, una mejor estimación de la varianza.

enter image description here

El código R para lo anterior está aquí:

library(ggplot2)
library(reshape2)
testpois = function(){
  X = rpois(100, 4)
  mu = mean(X)
  v = var(X)
  return(c(mu, v))
}

P = data.frame(t(replicate(100, testpois())))
P = melt(P)

ggplot(P, aes(x=value)) + geom_histogram(binwidth=.1, colour="black", fill="white") +
  geom_vline(aes(xintercept=mean(value, na.rm=T)),   # Ignore NA values for mean
             color="red", linetype="dashed", size=1) + facet_grid(variable~.)

En cuanto a la cuestión del sesgo, yo no me preocuparía demasiado de que tu estimador esté sesgado (en el ejemplo anterior no lo está, pero eso es pura suerte). Si la insesgadez es importante para usted, siempre puede utilizar Jackknife para intentar eliminar el sesgo.

2voto

AdamSane Puntos 1825

He trasladado mi comentario a una respuesta para poder ampliarlo como se solicita.

[ Si te refieres a la forma de varianza $\frac{1}{n}\sum_{i=1}^{n}(X-\bar{X_{n}})^{2}$ como ML (que lo es para la normal), entonces ambas formas utilizan exactamente la misma información: las sumas de cuadrados de desviación de la media. La única diferencia es ese factor de escala].

Si necesita que la estimación de la varianza sea insesgada, podría usarla (tenga en cuenta que, en general, podría tomar cualquier MLE para la varianza en una distribución particular y ver si puede al menos aproximadamente insesgada; puede ser más eficiente), pero no es (digamos) MSE mínimo para la varianza, y no es insesgada si está tomando la raíz cuadrada y usándola para la desviación estándar.

Al menos la estimación ML para la varianza sigue siendo ML para la d.s. (independientemente de la distribución para la que se tenga un MLE de la varianza).

He aquí por qué lo digo:

Las MLE tienen la propiedad de ser invariante a la transformación de los parámetros - la MLE de $g(\theta)$ es $g(\hat{\theta})$ (o más concisamente, $\widehat{g(\theta)}=g(\hat{\theta})$ ). Véase el breve debate aquí y lo que hay debajo de nota 2 .

Ninguno de ellos lo demuestra, pero te daré una motivación/esbozo (algo torpe) de un argumento para el caso simple de las transformaciones monótonas. Puedes encontrar un argumento completo en muchos textos que discuten ML a un nivel más que elemental.

En el caso de transformaciones monótonas: Tomemos un caso sencillo: imaginemos que tenemos una curva ( $y$ vs $x$ ) con un único pico en algún punto intermedio (un máximo tanto global como local). Ahora transformo el $x$ a $\xi$ ( $\xi=t(x)$ ) mientras que $y$ no cambia. La dirección forma de la curva cambia, pero el $y$ no. El máximo original de $y$ sigue siendo el mismo máximo en el lugar correspondiente de $\xi$ como en $x$ (es decir, si el máximo estaba en $x^*$ Ahora está en $\xi^*=t(x^*)$ . Deberías ver cómo extender esa intuición a una transformación monótona y a cualquier máximo global. [El caso más general de las transformaciones no monótonas es menos evidente, pero sigue siendo cierto. Edición: Es cierto en el caso de funciones uno a uno por un argumento similar al anterior].

Volviendo a la respuesta original:

En la práctica (en el $n$ vs $n-1$ caso) rara vez hay mucha diferencia y utilizo regularmente cada uno en diferentes circunstancias sin preocuparme demasiado. Normalmente no me preocupa una estimación insesgada de la varianza

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X