El método MLE puede aplicarse en los casos en los que alguien conoce el funcional básico formulario del pdf (por ejemplo, es gaussiano, o log-normal, o exponencial, o lo que sea), pero no los parámetros subyacentes; por ejemplo, no conocen los valores de $\mu$ y $\sigma$ en el pdf: $$f(x|\mu, \sigma) = \frac{1}{\sqrt{2\pi\sigma^{2}}} \exp\left[\frac{-(x-\mu)^{2}}{2 \sigma^{2}}\right]$$ o cualquier otro tipo de pdf que supongan. El trabajo del método MLE es elegir los mejores valores (es decir, los más plausibles) para los parámetros desconocidos, dadas las mediciones de datos particulares $x_{1}, x_{2}, x_{3}, ...$ que se observaron realmente. Así que para responder a tu primera pregunta, sí, siempre estás en tu derecho de preguntar a alguien qué formulario de pdf que están asumiendo para su estimación de máxima verosimilitud; de hecho, los valores de los parámetros estimados que te dicen ni siquiera tienen sentido si no te comunican primero ese contexto.
El algoritmo EM, tal y como lo he visto aplicado en el pasado, es más bien una especie de meta algoritmo, en el que faltan algunos de los metadatos, y también hay que estimar eso. Así, por ejemplo, tal vez tengo un pdf que es una mezcla de varios Gaussianos, por ejemplo: $$ f(x|A_{1},...,A_{N},\mu_{1},...,\mu_{N}, \sigma_{1},...\sigma_{N}) = \sum_{k=1}^{N} \frac{A_{k}}{\sqrt{2\pi\sigma_{k}^{2}}} \exp\left[\frac{-(x-\mu_{k})^{2}}{2 \sigma_{k}^{2}}\right] $$ Superficialmente, excepto por la adición del parámetro de amplitud $A_{k}$ Esto se parece mucho al problema anterior, pero ¿y si te digo que tampoco sabemos el valor de $N$ (es decir, el número de modos en la mezcla gaussiana) y queremos estimarlo a partir de las medidas de los datos $x_{1}, x_{2}, x_{3}, ...$ ¿también?
En este caso, tiene un problema, porque cada valor posible de $N$ (esta es la parte "meta" a la que aludía más arriba) realmente genera un modelo diferente, en cierto sentido. Si $N=1$ entonces se tiene un modelo con tres parámetros ( $A_{1}$ , $\mu_{1}$ , $\sigma_{1}$ ) mientras que si $N=2$ entonces se tiene un modelo con seis parámetros ( $A_{1}$ , $A_{2}$ , $\mu_{1}$ , $\mu_{2}$ , $\sigma_{1}$ , $\sigma_{2}$ ). Los valores de mejor ajuste que se obtienen para ( $A_{1}$ , $\mu_{1}$ , $\sigma_{1}$ ) en el $N=1$ no puede compararse directamente con los valores de mejor ajuste que se obtienen para esos mismos parámetros en el $N=2$ porque son modelos diferentes con un número distinto de grados de libertad .
El papel del algoritmo EM es proporcionar un mecanismo para realizar ese tipo de comparaciones (normalmente imponiendo un "penalización de la complejidad" que prefiere valores más pequeños de $N$ ) para que podamos elegir el mejor valor global para $N$ .
Así que, para responder a tu pregunta original, el algoritmo EM requiere una especificación menos precisa de la forma del pdf; se podría decir que considera un rango de opciones alternativas (por ejemplo, la opción donde $N=1$ , $N=2$ , $N=3$ etc.), pero sigue requiriendo que se especifique algo sobre la forma matemática básica de esas opciones; en cierto sentido, se tiene que especificar una "familia" de posibles FDP, aunque se deje que el algoritmo decida por usted qué "miembro" de la familia proporciona el mejor ajuste a los datos.