22 votos

¿Qué se entiende por el error estándar de una estimación de máxima verosimilitud?

Soy un matemático de auto-estudio de las estadísticas y luchando sobre todo con el idioma.

En el libro que estoy usando, existe el siguiente problema:

Una variable aleatoria $X$ es dado como $\text{Pareto}(\alpha,60)$-distribución con $\alpha>0$. (Por supuesto, usted podría tener cualquier distribución dependiendo de un parámetro para el bien de esta pregunta). A continuación, una muestra de cinco valores $14$, $21$, $6$, $32$, $2$ es dado.

Primera parte: "Mediante el método de máxima verosimilitud, encontrar una estimación $\hat{\alpha}$ $\alpha$ basado en [la muestra]." Esto no fue problema. La respuesta es $\hat{\alpha}\approx 4.6931$.

Pero entonces: "Dar una estimación del error estándar de $\hat{\alpha}$."

¿Qué se entiende por esto? Desde $\hat{\alpha}$ es simplemente un número real fijo, no veo en qué forma podría tener un error estándar. Soy yo para determinar la desviación estándar de $\text{Pareto}(\hat{\alpha},60)$?

Si usted piensa que la pregunta no es clara, esta información me ayudaría así.

21voto

Casey Jones Puntos 111

$\hat{\alpha}$ -- un estimador de máxima verosimilitud, es una función de una muestra aleatoria, y así también es aleatorio (no fijo). Una estimación del error estándar de $\hat{\alpha}$ podría ser obtenido a partir de la información de Fisher,

$$ I(\theta) = -\mathbb{E}\left[ \frac{\partial^2 \mathcal{L}(\theta|Y = Y)}{\parcial \theta^2}|_\theta \right] $$

Donde $\theta$ es un parámetro y $\mathcal{L}(\theta|Y = y)$ es la log-verosimilitud de la función de $\theta$ condicional en la muestra aleatoria $y$. Intuitivamente, la información de Fisher indica la pendiente de la curvatura de la log-verosimilitud de la superficie alrededor de la MLE, así que la cantidad de "información" que $y$ proporciona acerca de $\theta$.

Para un $\mathrm{Pareto}(\alpha,y_0)$ distribución con un solo realización $Y = y$, la log-verosimilitud donde $y_0$ es conocido:

$$ \begin{aligned} \mathcal{L}(\alpha|y,y_0) &= \log \alpha + \alpha \log y_0 - (\alpha + 1) \log y \\ \mathcal{L}'(\alpha|y,y_0) &= \frac{1}{\alpha} + \log y_0 - \log y \\ \mathcal{L}''(\alpha|y,y_0) &= -\frac{1}{\alpha^2} \end{aligned} $$ Conectar a la definición de Fisher de la información, $$ I(\alpha) = \frac{1}{\alpha^2} $$ Para una muestra de $\{y_1, y_2, ..., y_n\}$ El estimador de máxima verosimilitud $\hat{\alpha}$ se distribuye asintóticamente como: $$ \begin{aligned} \hat{\alpha} \overset{n \rightarrow \infty}{\sim} \mathcal{N}(\alpha,\frac{1}{nI(\alpha)}) = \mathcal{N}(\alpha,\frac{\alpha^2}{n}),~ \end{aligned} $$ Donde $n$ es el tamaño de la muestra. Debido a $\alpha$ es desconocido, se puede conectar $\hat{\alpha}$ para obtener una estimación del error estándar: $$ \mathrm{SE}(\hat{\alpha}) \approx \sqrt{\hat{\alpha}^2/n} \approx \sqrt{4.6931^2/5} \approx 2.1 $$

18voto

Jeff Bauer Puntos 236

La otra respuesta ha cubierto la derivación del error estándar, sólo quiero ayudar con la notación:

Su confusión se debe al hecho de que en las Estadísticas que utiliza exactamente el mismo símbolo para denotar el Estimador (que es una función), y una estimación específica (que es el valor que el estimador cuando se recibe como entrada un determinado di cuenta de la muestra).

Por lo $\hat \alpha = h(\mathbf X)$$\hat \alpha(\mathbf X = \mathbf x) = 4.6931$$\mathbf x = \{14,\,21,\,6,\,32,\,2\}$. Por lo $\hat \alpha(X)$ es una función de variables aleatorias y por lo que una variable aleatoria sí mismo, que sin duda tiene una varianza.

En la estimación ML, en muchos casos, lo que podemos calcular es el asintótica error estándar, debido a la limitada distribución muestral del estimador de frecuencia no conocida (no puede ser derivada).

Estrictamente hablando, $\hat \alpha$ no tiene una distribución asintótica, ya que converge a un número real (número real en casi todos los casos de estimación ML). Pero la cantidad de $\sqrt n (\hat \alpha - \alpha)$ converge a una variable aleatoria normal (por aplicación del Teorema del Límite Central).

Un segundo punto de métodos de representación de la confusión: la mayoría, si no todos los textos, escribe $\text {Avar}(\hat \alpha)$ ("Avar" = varianza asintótica"), mientras que lo que significa es $\text {Avar}(\sqrt n (\hat \alpha - \alpha))$, es decir, se refieren a la varianza asintótica de la cantidad de $\sqrt n (\hat \alpha - \alpha)$, no de $\hat \alpha$... Para el caso de los básicos de una distribución de Pareto tenemos

$$\text {Avar}[\sqrt n (\hat \alpha - \alpha)] = \alpha^2$$

y por lo $$\text {Avar}(\hat \alpha ) = \alpha^2/n$$

(pero lo que se encuentra escrito es $\text {Avar}(\hat \alpha ) = \alpha^2$)

Ahora, ¿en qué sentido el Estimador $\hat \alpha$ tiene un "varianza asintótica", ya que, como se dijo, converge asintóticamente a una constante? Así, en un aproximado de sentido y de grande pero finito de muestras. I. e. en algún lugar entre una "pequeña" muestra, donde el Estimador es una variable aleatoria con (por lo general) se desconoce la distribución, y un "infinito" de la muestra, donde el estimador es una constante, no es este "grande pero finito de muestras territorio", donde el Estimador no se ha convertido en una constante y donde su distribución y variación se deriva de una manera indirecta, primero usando el Teorema del Límite Central para derivar la correcta distribución asintótica de la cantidad de $Z = \sqrt n (\hat \alpha - \alpha)$ (lo cual es normal debido a la CLT)y , a continuación, cambiando las cosas y escribir $\hat \alpha = \frac 1{\sqrt n} Z + \alpha$ (mientras que la de tomar un paso atrás y el tratamiento de la $n$ como finito), que muestra $\hat \alpha$ como afín a la función de la variable aleatoria normal $Z$, y por lo que normalmente distribuido en sí (siempre aproximadamente).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X