Estoy tratando de entender estimación de Máxima verosimilitud, pero parece que me estoy perdiendo algo bastante elemental.
supongamos que tenemos un iid muestra aleatoria $X_1, X_2,..., X_n$ para que la función de densidad de probabilidad de cada una de las $X_i$ $f(x_i; θ)$ donde $\theta$ es un parámetro desconocido. Entonces, la articulación función de densidad de probabilidad de $X_1, X_2,..., X_n$ está dada por :
$f(X_1=x_1,X_2=x_2,\cdots,X_n=x_n)=\prod_{i=1}^{n} f(x_i, \theta)$
En la estimación de Máxima Verosimilitud, tratamos de minimizar $f$ como una función de la $\theta$.
Pregunta: ¿Por qué nos maximizar la densidad de probabilidad en lugar de la probabilidad? En lo que no tiene sentido?
Edit: Como se explica en las respuestas, la probabilidad de elegir un número finito de puntos de muestreo de una distribución de probabilidad continua es cero, por lo que la maximización de la probabilidad no tiene sentido, pero ¿cómo maximizar la densidad de probabilidad de sentido?