12 votos

¿Significa la MLE que siempre conocemos la PDF subyacente de nuestros datos, y la EM que no?

Tengo algunas preguntas conceptuales sencillas que me gustaría que me aclararan sobre la MLE (Estimación de Máxima Verosimilitud), y qué relación tiene, si es que tiene alguna, con la EM (Maximización de Expectativas).

Según tengo entendido, si alguien dice "Hemos utilizado la MLE", ¿significa eso automáticamente que tiene un modelo explícito de la PDF de sus datos? Me parece que la respuesta es sí. Dicho de otro modo, si en algún momento alguien dice "MLE", es justo preguntarle qué PDF está asumiendo. ¿Sería esto correcto?

Por último, en cuanto a la EM, tengo entendido que en la EM no conocemos -ni necesitamos conocer- la PDF subyacente de nuestros datos. Esto es lo que yo entiendo.

Gracias.

13voto

divya nagar Puntos 51

El método MLE puede aplicarse en los casos en los que alguien conoce el funcional básico formulario del pdf (por ejemplo, es gaussiano, o log-normal, o exponencial, o lo que sea), pero no los parámetros subyacentes; por ejemplo, no conocen los valores de $\mu$ y $\sigma$ en el pdf: $$f(x|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left[\frac{-(x-\mu)^{2}}{2 \sigma^{2}}\right]$$ o cualquier otro tipo de pdf que supongan. El trabajo del método MLE es elegir los mejores valores (es decir, los más plausibles) para los parámetros desconocidos, dadas las mediciones de datos particulares $x_{1}, x_{2}, x_{3}, ...$ que se observaron realmente. Así que para responder a tu primera pregunta, sí, siempre estás en tu derecho de preguntar a alguien qué formulario de pdf que están asumiendo para su estimación de máxima verosimilitud; de hecho, los valores de los parámetros estimados que te dicen ni siquiera tienen sentido si no te comunican primero ese contexto.

El algoritmo EM, tal y como lo he visto aplicado en el pasado, es más bien una especie de meta algoritmo, en el que faltan algunos de los metadatos, y también hay que estimar eso. Así, por ejemplo, tal vez tengo un pdf que es una mezcla de varios Gaussianos, por ejemplo: $$ f(x|A_{1},...,A_{N},\mu_{1},...,\mu_{N}, \sigma_{1},...\sigma_{N}) = \sum_{k=1}^{N} \frac{A_{k}}{\sqrt{2\pi\sigma_{k}^{2}}} \exp\left[\frac{-(x-\mu_{k})^{2}}{2 \sigma_{k}^{2}}\right] $$ Superficialmente, excepto por la adición del parámetro de amplitud $A_{k}$ Esto se parece mucho al problema anterior, pero ¿y si te digo que tampoco sabemos el valor de $N$ (es decir, el número de modos en la mezcla gaussiana) y queremos estimarlo a partir de las medidas de los datos $x_{1}, x_{2}, x_{3}, ...$ ¿también?

En este caso, tiene un problema, porque cada valor posible de $N$ (esta es la parte "meta" a la que aludía más arriba) realmente genera un modelo diferente, en cierto sentido. Si $N=1$ entonces se tiene un modelo con tres parámetros ( $A_{1}$ , $\mu_{1}$ , $\sigma_{1}$ ) mientras que si $N=2$ entonces se tiene un modelo con seis parámetros ( $A_{1}$ , $A_{2}$ , $\mu_{1}$ , $\mu_{2}$ , $\sigma_{1}$ , $\sigma_{2}$ ). Los valores de mejor ajuste que se obtienen para ( $A_{1}$ , $\mu_{1}$ , $\sigma_{1}$ ) en el $N=1$ no puede compararse directamente con los valores de mejor ajuste que se obtienen para esos mismos parámetros en el $N=2$ porque son modelos diferentes con un número distinto de grados de libertad .

El papel del algoritmo EM es proporcionar un mecanismo para realizar ese tipo de comparaciones (normalmente imponiendo un "penalización de la complejidad" que prefiere valores más pequeños de $N$ ) para que podamos elegir el mejor valor global para $N$ .

Así que, para responder a tu pregunta original, el algoritmo EM requiere una especificación menos precisa de la forma del pdf; se podría decir que considera un rango de opciones alternativas (por ejemplo, la opción donde $N=1$ , $N=2$ , $N=3$ etc.), pero sigue requiriendo que se especifique algo sobre la forma matemática básica de esas opciones; en cierto sentido, se tiene que especificar una "familia" de posibles FDP, aunque se deje que el algoritmo decida por usted qué "miembro" de la familia proporciona el mejor ajuste a los datos.

2voto

Simon Walker Puntos 242

La MLE requiere el conocimiento de al menos las distribuciones marginales. Cuando se utiliza el MLE, normalmente se estiman los parámetros de una distribución conjunta haciendo una suposición iid, y luego factorizando la distribución conjunta como un producto de los marginales, que conocemos. Hay variaciones, pero esta es la idea en la mayoría de los casos. Así que el MLE es un método paramétrico.

El algoritmo EM es un método para maximizar las funciones de probabilidad que surgen como parte de un algoritmo MLE. A menudo (¿habitualmente?) se utiliza para las soluciones numéricas.

Siempre que utilicemos el MLE, necesitaremos al menos las distribuciones marginales y alguna suposición sobre cómo se relaciona la unión con los marginales (independencia, etc.). Por lo tanto, ambos métodos se basan en el conocimiento de las distribuciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X