5 votos

Preguntas sobre las condiciones de regularidad en la estadística matemática

A menudo, varios teoremas de la estadística matemática dependen de condiciones de regularidad.

Por ejemplo, hay un teorema que dice:

"Dejemos ˆθn^θn sea el estimador de máxima verosimilitud de θθ basado en la muestra Xn=(X1,...,Xn)Xn=(X1,...,Xn) , entonces bajo condiciones de regularidad , ˆθn^θn es un estimador consistente de θθ .

Tres de las condiciones de regularidad que suelo ver son:

1) El conjunto X={x1R:Lx1(θ)>0} no depende de θ .

2) Si Lx1(θ1)=Lx1(θ2) para casi todos los x1X entonces θ1=θ2 .

3) El espacio de los parámetros ϕ del parámetro desconocido θ es un subconjunto abierto (aunque no necesariamente un subconjunto propio) de la recta real.

No entiendo 2) y 3). ¿Alguien podría darme una explicación intuitiva del número 3) y quizás por qué necesitamos que el 2) se mantenga?

Gracias, gracias.

3voto

digsrafik Puntos 101

Hm, se necesita mucho más que esas tres condiciones para que el MLE sea consistente.

La función de probabilidad logarítmica L(X,θ) (si estoy interpretando correctamente su notación) es una función aleatoria de los datos X . Su condición 2) dice que la familia de todas las realizaciones posibles de esta función aleatoria {L(x,θ)}xX separa los puntos en su espacio de parámetros Θ . En otras palabras, la función de log-verosimilitud puede distinguir los diferentes parámetros. Por lo tanto, la identificación de los parámetros a través de MLE al menos tiene sentido.

¿Cómo va la MLE? Se toma una realización de L(X,θ) , encuentra el argmax, y esa es tu estimación. Sólo para la parte de la estimación, es bueno tener L(X,θ) diferenciable. Ahí es donde entra el 3). Sólo se puede hablar de diferenciabilidad en conjuntos abiertos.

Hasta ahora, esto es sólo poner los puntos sobre las íes. Nada de esto hace que la MLE se acerque a la coherencia. Para conseguir consistencia, se necesita L(x,θ,n) convergen, uniformemente sobre Θ en probabilidad a una función no aleatoria que se maximiza en el parámetro verdadero θ0 .

Si se divide la log-verosimilitud por el tamaño de la muestra n se ve que esta función no aleatoria debería ser naturalmente la divergencia de Kullback-Liebler.

Para acercarse uniformemente a la divergencia KL, se necesita que el teorema de convergencia dominada de Lebesgue sea aplicable a L(x,θ) en un pequeño barrio Nθ de θ . A grandes rasgos, esto dice que si L(x,θ) no cambia demasiado en Nθ para cada x entonces se puede acotar uniformemente el cambio de L(x,θ) sobre un conjunto de x con una probabilidad cercana a 1 . Esta es la condición más importante.

2voto

vladr Puntos 299

parece que

2) significa que el parámetro no es "degenerado", de modo que dos valores diferentes del parámetro no dan la misma densidad de probabilidad

3) significa que no hay ningún valor "límite" del parámetro, de modo que para cada valor se puede cambiar un poco y seguir obteniendo un nuevo valor válido

ambos probablemente importantes para la diferenciación...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X