5 votos

Preguntas sobre las condiciones de regularidad en la estadística matemática

A menudo, varios teoremas de la estadística matemática dependen de condiciones de regularidad.

Por ejemplo, hay un teorema que dice:

"Dejemos $\hat{\theta}_n$ sea el estimador de máxima verosimilitud de $\theta$ basado en la muestra $X_n = (X_1,...,X_n)$ , entonces bajo condiciones de regularidad , $\hat{\theta}_n$ es un estimador consistente de $\theta$ .

Tres de las condiciones de regularidad que suelo ver son:

1) El conjunto $\mathbb{X} = \{ x_1 \in \mathbb{R}: L_{x_1}(\theta)>0 \}$ no depende de $\theta$ .

2) Si $L_{x_1}(\theta_1) = L_{x_1}(\theta_2)$ para casi todos los $x_1 \in \mathbb{X}$ entonces $\theta_1 = \theta_2$ .

3) El espacio de los parámetros $\phi$ del parámetro desconocido $\theta$ es un subconjunto abierto (aunque no necesariamente un subconjunto propio) de la recta real.

No entiendo 2) y 3). ¿Alguien podría darme una explicación intuitiva del número 3) y quizás por qué necesitamos que el 2) se mantenga?

Gracias, gracias.

3voto

digsrafik Puntos 101

Hm, se necesita mucho más que esas tres condiciones para que el MLE sea consistente.

La función de probabilidad logarítmica $L(X, \theta)$ (si estoy interpretando correctamente su notación) es una función aleatoria de los datos $X$ . Su condición 2) dice que la familia de todas las realizaciones posibles de esta función aleatoria $\{ L(x, \theta) \}_{x \in X}$ separa los puntos en su espacio de parámetros $\Theta$ . En otras palabras, la función de log-verosimilitud puede distinguir los diferentes parámetros. Por lo tanto, la identificación de los parámetros a través de MLE al menos tiene sentido.

¿Cómo va la MLE? Se toma una realización de $L(X, \theta)$ , encuentra el argmax, y esa es tu estimación. Sólo para la parte de la estimación, es bueno tener $L(X, \theta)$ diferenciable. Ahí es donde entra el 3). Sólo se puede hablar de diferenciabilidad en conjuntos abiertos.

Hasta ahora, esto es sólo poner los puntos sobre las íes. Nada de esto hace que la MLE se acerque a la coherencia. Para conseguir consistencia, se necesita $L(x, \theta, n)$ convergen, uniformemente sobre $\Theta$ en probabilidad a una función no aleatoria que se maximiza en el parámetro verdadero $\theta_0$ .

Si se divide la log-verosimilitud por el tamaño de la muestra $n$ se ve que esta función no aleatoria debería ser naturalmente la divergencia de Kullback-Liebler.

Para acercarse uniformemente a la divergencia KL, se necesita que el teorema de convergencia dominada de Lebesgue sea aplicable a $L(x, \theta)$ en un pequeño barrio $N_\theta$ de $\theta$ . A grandes rasgos, esto dice que si $L(x, \theta)$ no cambia demasiado en $N_\theta$ para cada $x$ entonces se puede acotar uniformemente el cambio de $L(x, \theta)$ sobre un conjunto de $x$ con una probabilidad cercana a $1$ . Esta es la condición más importante.

2voto

vladr Puntos 299

parece que

2) significa que el parámetro no es "degenerado", de modo que dos valores diferentes del parámetro no dan la misma densidad de probabilidad

3) significa que no hay ningún valor "límite" del parámetro, de modo que para cada valor se puede cambiar un poco y seguir obteniendo un nuevo valor válido

ambos probablemente importantes para la diferenciación...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X