Estoy tratando de entender estimación de Máxima verosimilitud, pero parece que me estoy perdiendo algo bastante elemental.
supongamos que tenemos un iid muestra aleatoria X1,X2,...,Xn para que la función de densidad de probabilidad de cada una de las Xi f(x_i; θ) donde \theta es un parámetro desconocido. Entonces, la articulación función de densidad de probabilidad de X_1, X_2,..., X_n está dada por :
f(X_1=x_1,X_2=x_2,\cdots,X_n=x_n)=\prod_{i=1}^{n} f(x_i, \theta)
En la estimación de Máxima Verosimilitud, tratamos de minimizar f como una función de la \theta.
Pregunta: ¿Por qué nos maximizar la densidad de probabilidad en lugar de la probabilidad? En lo que no tiene sentido?
Edit: Como se explica en las respuestas, la probabilidad de elegir un número finito de puntos de muestreo de una distribución de probabilidad continua es cero, por lo que la maximización de la probabilidad no tiene sentido, pero ¿cómo maximizar la densidad de probabilidad de sentido?