¿Cuál es la diferencia entre los algoritmos EM (Expectation Maximization) y el Gradiente de Ascenso (o descenso)? Es allí cualquier condición bajo la cual son equivalentes?
Respuestas
¿Demasiados anuncios?De:
Xu L y Jordania MI (1996). En las Propiedades de Convergencia del Algoritmo EM para Gauss Mezclas. La Computación Neuronal 2: 129-151.
Resumen:
Nos muestran que la EM paso en el espacio de parámetros se obtiene a partir del gradiente a través de una matriz de proyección P, y que proporcionan una expresión explícita para la matriz.
Página 2
En particular, mostramos que la EM paso puede ser obtenido por la pre-multiplicando el gradiente positivo denitiva de la matriz. Ofrecemos una expresión explícita para la matriz ...
Página 3
Es decir, el algoritmo EM puede ser visto como una variable métrica gradiente de ascenso algoritmo de ...
Esto es, el documento proporciona explícita transformaciones del algoritmo EM en gradiente de ascenso, Newton, cuasi-Newton.
De wikipedia
Existen otros métodos para encontrar el máximo de estimaciones de probabilidad, tales como el gradiente de la pendiente, de gradiente conjugado o variaciones de Gauss–Newton método. A diferencia de la EM, estos métodos generalmente requieren de la evaluación de la primera y/o segunda derivadas de la función de probabilidad.
No, ellos no son equivalentes. En particular, EM convergencia es mucho más lento.
Si usted está interesado en una optimización de puntos de vista sobre la EM, en este artículo podrás ver que el algoritmo EM es un caso especial de la categoría más amplia de los algoritmos (proximal punto de algoritmos).