5 votos

Anomalías de máximos locales de métodos de probabilidad

Métodos de verosimilitud tienen muchas propiedades deseadas. Lamentablemente, máximos locales en muestras finitas no es uno de ellos. Existe un máximo local cerca del valor del parámetro verdadero es de no confort si uno converge a máximos locales diferentes.

Estoy buscando trabajos revisar este problema, lo demostrando y ofreciendo soluciones.

3voto

Andrew M Puntos 1141

Como Cagdas Ozgenc señala en su respuesta, no es una simple condición suficiente para hacer esta pregunta discutible: que la probabilidad de ser cóncava en el espacio de parámetros (casi seguramente con respecto a la distribución de muestreo de los datos). Que cubre muchos casos interesantes (es decir, la exponencial de la familia), pero en el fondo deja todo lo demás.

No tengo una respuesta aquí, pero creo que hay varias maneras en las que esta cuestión podría ser refinado o reformulado:

  1. ¿Qué propiedades de la MLE tener en muestras finitas, y bajo qué modelos? Aunque todo el mundo le gusta el MLE, es el uso de (AFAIK) se basa en asintótica garantías. Yo no puedo pensar en ninguna muestra finita garantías para ello.
  2. ¿Qué propiedades, si, tiene un máximo local?

Bibliografía

"Evaluación de la Máxima Probabilidad del Estimador donde la Probabilidad de Ecuación tiene Varias Raíces" VD Barnette 1966. La distribución de Cauchy con el parámetro de localización ofrece un ejemplo canónico de un riesgo con múltiples raíces (incluso asintóticamente).

"Las pruebas para un Máximo Global de la Probabilidad" Christophe Biernacki, 2005. Una prueba de coherencia para una raíz de la probabilidad de la ecuación, basada en la comparación de la observó maximiza la probabilidad de su valor esperado bajo la supuesta argmax

"La eliminación de raíces Múltiples Problemas en la Estimación de la" Pequeña, Wang, Yang, 2000. Si usted va a leer un documento, probablemente este sea. Discute todo lo anterior, en el contexto de las ecuaciones de estimación generalizadas, además sugiere suavizado o penalizar la probabilidad para ayudar a resolver los múltiples raíces.

1voto

alexs77 Puntos 36

No estimador se convergen en probabilidad para el valor del parámetro en muestras finitas, debido a la naturaleza aleatoria de los datos en general. Los estimadores de máxima verosimilitud son consistentes y eficientes entre imparcial de los estimadores de los valores de los parámetros. De hecho, Emv son root-n constante por la CLT, lo que significa que convergen en el valor del parámetro según el tamaño de la muestra aumenta considerable más rápido que cualquier otro estimador imparcial (en la mayoría de los casos) como método de momentos. Simplemente, en las especificaciones correctas de los modelos de probabilidad para los datos de los mecanismos de generación, el MLE es una de las mejores herramientas a su alrededor. Si estás buscando un general de la teoría de la probabilidad textos que tratan sobre la estimación asintótica, me iba a referir a Lehmann Y Casella la Teoría del Punto de Estimación.

1voto

Joeri Sebrechts Puntos 7483

Este no es un problema de muestras finitas. Está relacionada con la complejidad de la función de error y la función de enlace. Como el tiempo es cuadrática no habrá múltiples maxima. Si no lo más probable es que a más de uno. Por ejemplo, si usted está bajo la hipótesis de que los datos tienen una distribución normal, entonces usted tiene:

$N(f(y|x;\theta),\sigma)$

donde f es la función de enlace. Ahora si se considera el pdf:

$f(y) = \frac{1}{(2\pi)^{1/2}\sigma} e^{-\frac{(y-f(x;\theta))^2}{2\sigma^2}}$

La combinación de la función, la función de enlace enchufado en la distribución, en este escenario es cuadrática (no te preocupes por el exponencial a medida que desaparece cuando se trabaja con su logaritmo) si $f(y|x;\theta)$ es una función lineal. Esto sucede en la regresión lineal con errores de Gauss, por ejemplo.

En cualquier caso, si su distribución no tiene una forma cuadrática o cuando se combina con la función de enlace termina no cuadrática tendrá el problema de las múltiples maxima.

No hay una buena solución para el problema como la búsqueda del máximo global es NP-duro.

http://web.maths.unsw.edu.au/~rsw/lgopt.pdf

páginas 20-21

Hay algoritmos que intentan cubrir todo el espacio de parámetros, pero son muy lentos como uno espera. Así que no es un problema de la MLE. Si se conecta la función de Probabilidad para una más sofisticada optimizador como el recocido simulado, búsqueda de la solución global.

http://en.wikipedia.org/wiki/Simulated_annealing

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X