7 votos

¿Necesito adivinar una distribución para usar MLE?

Por lo que entiendo sobre la estimación de máxima verosimilitud, observando un conjunto de datos, adivinamos una familia de distribución y luego encontramos los parámetros para esa distribución que maximizarán la probabilidad de observar los datos que hemos observado. (¿Estoy bien?)

Así que antes de usar MLE necesito tener una manera de adivinar una familia de distribución que los datos siguen. ¿Cómo puedo hacer esto adivinar?

7voto

Mark L. Stone Puntos 2037

Para aplicar paramétrico de la MLE, es necesario especificar una distribución paramétrica. Para no paramétrico de la MLE, no se especifica una distribución paramétrica.

El más popular de la no-paramétrico MLE enfoques se llama Empírica de la Probabilidad https://en.wikipedia.org/wiki/Empirical_likelihood (no se mucho de escribir en esa página). El libro clásico en el campo es "Empírica de la Probabilidad" por Arte B, Owen https://www.amazon.com/Empirical-Likelihood-Art-B-Owen/dp/1584880716 . El libre acceso de papel "Empírica de la Probabilidad", Art B, Owen, Anales de Estadísticas de 1990, Vol. 18, pp 90-120 https://projecteuclid.org/download/pdf_1/euclid.aos/1176347494 le dará una idea bastante buena del campo. Libre disposición de las diapositivas por Owen son en http://statweb.stanford.edu/~owen/pubtalks/DASprott.pdf .

Básicamente, la Probabilidad Empírica hace uso de la distribución empírica de los datos, como la base para la formación de una empírica de la probabilidad. Este empírica de la probabilidad puede ser maximizada, sujeto a diversas limitaciones, a veces en forma cerrada, pero que a menudo requiere numérico no lineal restringida métodos de optimización. Puede ser utilizado como la base para el cómputo de los no-paramétrico de la razón de verosimilitud de las pruebas y regiones de confianza (no necesariamente elipsoidal o simétrica).

Hay relaciones entre empírica de la probabilidad y de arranque, y de hecho, los dos se pueden combinar.

Si usted no tiene un sólido fundamento para el uso particular de una distribución paramétrica, generalmente es preferible el uso de un no-paramétrica del método, tales como empírica de la probabilidad. La desventaja puede ser que los cálculos son más intensas, y las regiones de confianza que el resultado no se parecen a los de la mayoría de la gente ha llegado a esperar basándose en, por ejemplo, la distribución Normal de los supuestos.

2voto

Aksakal Puntos 11351

Para aplicar el MLE usted necesita para asumir una distribución. Así que, sí, usted necesita tener una idea de la distribución, por lo general. El estándar de introducción de textos de uso de Gauss. Por ejemplo, podría mostrar cómo la distribución Gaussiana conduce a la MLE en el modelo lineal para el mismo como estimadores de mínimos cuadrados de la regresión.

La distribución gaussiana con la independencia (muestra aleatoria) asunción es una elección popular. Sin embargo, otras distribuciones se utilizan cuando es más adecuado para un problema. A menudo, usted no tiene que "adivinar" la distribución, pero ya saben de qué familia pertenece. Tal vez usted sabe que debe ser de Poisson, por ejemplo. En este caso usted lo enchufa en el MLE ecuaciones y se derivan de la adecuada función de probabilidad para estimar el parámetro de la distribución

2voto

Richard Hardy Puntos 6099

¿Cómo puedo hacer esta conjetura?

Como se ha señalado en otras respuestas, a veces usted sabe lo que la distribución debe ser debido a la naturaleza de los datos proceso de generación. Considere la posibilidad Generalizada de valores Extremos de la Distribución, como se describe en Wikipedia:

Por el teorema del valor extremo de la distribución GEV es la única posible limitar la distribución de adecuadamente normalizado maxima de una secuencia de independientes e idénticamente distribuidas variables aleatorias.

Por supuesto, este es un asintótica resultado, pero usted puede contar con ella para lo suficientemente grandes muestras.

Otras veces usted sólo puede tener una idea aproximada y no sé exactamente. Sin embargo, esto puede ser suficiente en el marco de cuasi estimación de máxima verosimilitud (QMLE). QMLE permite constantemente estimar los parámetros del modelo y hacer inferencia cuando se supone que la distribución no coincide con la verdadera distribución. Incluso aunque no funciona universalmente (no todas las distribuciones pueden ser asumidos en lugar de otras distribuciones), todavía puede ser muy útil.

(He estado tratando de conseguir una explicación intuitiva de por qué y cómo QMLE obras preguntando acerca de la Idea y la intuición detrás de cuasi estimación de máxima verosimilitud (QMLE) aquí antes.)

1voto

alexs77 Puntos 36

En general, no se puede utilizar el MLE para encontrar que la familia de distribuciones podría proporcionar un buen modelo paramétrico para un resultado. Eso no quiere decir que no hay algunas técnicas de exploración que podría arrojar algo de luz sobre las posibilidades. Pero, como sabemos por las estadísticas, utilizando los mismos datos como una hipótesis de la generación de hipótesis y confirmar herramienta conducirá a un aumento de los errores de los falsos positivos.

Lo ideal es una familia de distribuciones es elegido antes de recolectar los datos. A menudo usted puede pensar acerca de los datos mecanismo de generación y/o trazar paralelismos entre lo que otros investigadores han utilizado y se discuten. Por ejemplo, la de Poisson variables independientes exponencial interarrival veces, y 3 parámetro de Weibull modelos flexible se puede describir de tiempo-evento curvas. Usted también puede confiar en el hecho de que las predicciones e inferencias provenientes de similares modelos de probabilidad tiende a ser muy similar, por ejemplo, la inferencia a partir de la prueba de t tiende a ser bastante similar a la de la prueba z, incluso moderadamente en muestras pequeñas.

Otra cosa a considerar es que de Tukey fue citado diciendo, "Construir su modelo tan grande como una casa!" dentro de los límites de los datos en sí, haciendo de la simplificación de los supuestos tiende a ser innecesaria cuando más flexible anidada modelos paramétricos están disponibles. Por ejemplo, en lugar de exponencial de tiempo-para-modelos de eventos, usted podría considerar la posibilidad de Weibull como una más de la clase, o 3 parámetro de Weibull como una parte aún mayor de la clase de modelos. Para el conteo de los procesos, binomial negativa modelos son básicamente de dos parámetros de Poisson modelos. Usted puede incluso considerar la posibilidad de mezclas o empírica de la probabilidad como maneras de describir densidades con un número mínimo de supuestos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X