6 votos

Por qué estimación de máxima verosimilitud maximiza la densidad de la probabilidad en lugar de probabilidad

Estoy tratando de entender estimación de Máxima verosimilitud, pero parece que me estoy perdiendo algo bastante elemental.

supongamos que tenemos un iid muestra aleatoria $X_1, X_2,..., X_n$ para que la función de densidad de probabilidad de cada una de las $X_i$ $f(x_i; θ)$ donde $\theta$ es un parámetro desconocido. Entonces, la articulación función de densidad de probabilidad de $X_1, X_2,..., X_n$ está dada por :

$f(X_1=x_1,X_2=x_2,\cdots,X_n=x_n)=\prod_{i=1}^{n} f(x_i, \theta)$

En la estimación de Máxima Verosimilitud, tratamos de minimizar $f$ como una función de la $\theta$.

Pregunta: ¿Por qué nos maximizar la densidad de probabilidad en lugar de la probabilidad? En lo que no tiene sentido?

Edit: Como se explica en las respuestas, la probabilidad de elegir un número finito de puntos de muestreo de una distribución de probabilidad continua es cero, por lo que la maximización de la probabilidad no tiene sentido, pero ¿cómo maximizar la densidad de probabilidad de sentido?

7voto

alexs77 Puntos 36

$f(x_i, \theta)$ no puede ser una probabilidad, es una función de densidad. En general, las estadísticas, no queremos tener que hacer excepciones especiales para continua versus discretas variables aleatorias todo el tiempo, sobre todo porque no es un campo de las matemáticas que nos da un enfoque unificado sin embargo, nos permite ser rigurosos acerca de tales cosas.

La justificación para maximizar el producto de la densidad de una muestra, o de la probabilidad, se parece mucho a la justificación de una integral en el cálculo. Tomar altura, es un valor continuo. Y supongamos que tengo alguna creencia acerca de una "normal, la máxima entropía Gaussiano" se extendió a ser la base de esta distribución en una población, y es parametrizadas por una media y desviación estándar. Mi altura se mide con error, y aunque yo sabía que a un nivel atómico, nunca pude encontrar una probabilidad asociada de que solo valor. La probabilidad de que mi altura es de entre 5'10" 5'11" es pequeño, pero entre 5'10.25" y 5'10.75" es aún menor, y si me exprimir y exprimir este rango en un $\epsilon$-ball, la probabilidad asociada llega a 0, incluso si mi altura pasa a ser la media, la moda y la mediana de la muestra de la población. Entonces, ¿cómo es que este valor, que es muy característica de la población se muestra una pequeña probabilidad? Un zen respuesta podría ser: el infinitessimal diferencias componen el todo. Por mirar a la densidad, o el diferencial de probabilidad, en realidad se encuentra que un azar de observación de la consecución de una media, moda, mediana es realmente muy característica: se logra la más alta probabilidad de cualquier otro valor en el que la densidad.

5voto

Zahava Kor Puntos 72

Su pregunta sólo se aplica a variables aleatorias continuas. En el caso de discretas variables aleatorias que hacen uso de probabilidades y no de las densidades. Para una variable aleatoria continua, la probabilidad de cada punto (valor de la variable) es 0, y sólo los intervalos positivos probabilidades obtenido mediante la integración de la función de densidad en el intervalo. Dado que la muestra se compone de puntos, se pueden multiplicar las probabilidades (el resultado siempre va a ser 0) y debe multiplicar densidades (que son, en cierto sentido, un "representante" de la probabilidad, pero no puede ser llamado de probabilidad). Para ser aún más específico: "de densidad de probabilidad" y "densidad" son uno y el mismo - dos nombres para la misma función. Para entender cuál es la función de densidad significa que usted debe tener conocimientos de cálculo. La función de densidad f(x) puede ser explicado como la "inclinación" de la probabilidad en el punto x. f(x)dx puede ser explicado como la probabilidad de que el punto x, que por un lado es igual a 0 (ya que dx es igual a 0), pero por otro lado es mayor que 0 cuando se integra a un intervalo de tiempo. Así que f(x) representa sólo el cómo "denso" la probabilidad es en el punto x, pero no es la probabilidad de que, aún puede ser utilizado como un "proxy" de la probabilidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X