¿Alguien sabe sobre los procesos de iteración computacional para la estimación de máxima verosimilitud?
¿Si estos conjunto de ecuaciones no se pueden resolver prácticamente entonces cómo la computadora les solucionar?
¿Alguien sabe sobre los procesos de iteración computacional para la estimación de máxima verosimilitud?
¿Si estos conjunto de ecuaciones no se pueden resolver prácticamente entonces cómo la computadora les solucionar?
Por necesidad, yo apenas arañar la superficie de aquí (para hacer el tema de la justicia requiere mucho más tiempo de respuesta), pero creo que este es un tema tan importante que, al menos, un esbozo de algunos enfoques comunes debe ser dado, con los enlaces a algunas de las cosas que se mencionan a lo largo del camino.
¿Alguien sabe sobre el cómputo de la iteración de los procesos de estimación de máxima verosimilitud?
No hay un método único, sino muchos, diferentes métodos adecuados para diferentes circunstancias.
Si este conjunto de ecuaciones puede ser resuelto en la práctica, a continuación, cómo el equipo resuelve?
Por "prácticamente" supongo que te refieres a algo como "algebraicamente en forma cerrada" - y, hablando estrictamente, la probabilidad de sí mismo no está resuelto. De problemas es normalmente algo que se puede hacer con las ecuaciones, para encontrar argumentos que satisfagan la ecuación.
Maximizar la probabilidad a veces puede ser convertido en un problema que involucra la solución de una ecuación, sin embargo.
Recordemos que la probabilidad es una función de los parámetros.
Maximizar la probabilidad de encontrar los parámetros que producen el mayor valor de la probabilidad de la función es, por tanto, un problema de optimización.
Existen numerosos enfoques que se utilizan para optimizar funciones.
En muchos casos, el registro de la probabilidad es más fácil de manejar (para una variedad de razones); los parámetros que maximizan la log-verosimilitud también maximizar la probabilidad. Además, es común tomar el negativo (o a veces dos veces el negativo) de la log-verosimilitud y minimizar; en parte esto es debido a que la mayoría de los optimizadores se escriben como función-minimizers en lugar de maximizers, a pesar de $-2\log\mathcal{L}$ también tiene importantes usos estadísticos.
Para funciones de variables aleatorias continuas a veces es posible utilizar el cálculo diferencial para obtener un conjunto de ecuaciones cuya solución va a ser puntos de inflexión de la función de probabilidad (que puede incluir los máximos locales; si puede demostrar que existe un único máximo global será en un punto de inflexión o un límite de punto). Sin embargo, para la mayoría de los moderadamente complejos problemas (e incluso muchos bastante simple) es a menudo mejor para tratar de maximizar la probabilidad de obtener más directamente de tratar de resolver este tipo de ecuaciones.
De manera más general, iterativo equipo son los métodos utilizados para el paso a través de una secuencia de parámetros valores de tal manera que (si tiene éxito) aproximadamente busque el máximo. Hay una serie de enfoques de diferentes sofisticación y requisitos. Por ejemplo, un enfoque es simplemente "la cabeza " cuesta abajo" en la probabilidad de superficie (gradiente de la pendiente/steepest descent), pero también existe el método de Newton (ver también aquí), varios cuasi-Newton métodos (como BFGS). Un enfoque estrechamente relacionado con el método de Newton utiliza comúnmente para maximizar la probabilidad de Fisher scoring.
Estos tipos de métodos generalmente requieren al menos de primeras derivadas de la probabilidad de que por lo general se obtiene de manera algebraica (aunque en algunos casos numéricos derivados son usados). Algunos derivados libres que existen métodos (como Nelder-Mead, por ejemplo). Algunos métodos se combinan varias técnicas diferentes, tomando ventaja de los métodos más rápidos cuando trabajan, pero el uso más seguro pero más lento enfoques de otra manera.
En general, sin embargo, varios locales maxima puede ocurrir, y luego (al menos en la mayoría de los casos) la identificación de la ubicación del máximo global puede ser muy difícil.
He aquí un ejemplo simple, con una pequeña muestra de una distribución de Cauchy:
A veces máximos se producen en los límites; esto puede causar dificultades para muchos de esos métodos (al menos si se aplica de manera indiscriminada).
Un ejemplo común ofrece a los estudiantes principiantes es el de estimar la $\theta$ a partir de una muestra de un uniforme en $(0,\theta)$ -- simplemente a ciegas tratando de establecer la derivada de la probabilidad (o la log-verosimilitud) a cero serán infructuosas, pero es un caso trivial para optimizar con un poco de cuidado.
A veces un iterated function ($\theta = F(\theta)$) puede ser establecida de tal manera que la máxima de la probabilidad corresponde a un punto fijo de la función. Un ejemplo se ve en esta respuesta.
En otras circunstancias, usted puede tener parámetros discretos. Un ejemplo común es la distribución hipergeométrica (el parámetro es el número de éxitos de los estados en la población). Sin embargo, en este caso en particular, la probabilidad puede ser demostrado ser creciente a la izquierda de un valor particular, y decreciente a la derecha de ella, haciendo que la solución simple para la hipergeométrica.
En algunos casos discretos encontrar el real ML puede ser NP-duro. A veces diversas aproximaciones pueden utilizarse para obtener estimaciones razonables de tiempo razonable.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.