71 votos

¿Cuál es la diferencia entre la estimación bayesiana y la estimación de máxima verosimilitud?

Por favor, explíqueme la diferencia entre la estimación bayesiana y la estimación de máxima verosimilitud.

10 votos

Depende del tipo de estimación bayesiana. ¿MPA? ¿Media posterior? ¿El resultado de minimizar el riesgo de Bayes para alguna función de pérdida? ¿Cada una de las anteriores? ¿Otra cosa?

2 votos

He respondido a esta pregunta, o a una análoga, aquí. stats.stackexchange.com/questions/73439/ ¿Qué problemas tienes para entender a los dos? Más detalles nos ayudarán a dar una mejor respuesta.

4 votos

Del manual de referencia de STAN: "Si la prioridad es uniforme, el modo posterior corresponde a la estimación de máxima verosimilitud (MLE) de los parámetros. Si la prioridad no es uniforme, el modo posterior se llama a veces la estimación máxima a posterior (MAP)".

90voto

Zhubarb Puntos 2330

Es una pregunta muy amplia y mi respuesta aquí sólo empieza a arañar un poco la superficie. Utilizaré la regla de Bayes para explicar los conceptos.

Supongamos que un conjunto de parámetros de distribución de probabilidad, $\theta$ , es la que mejor explica el conjunto de datos $D$ . Podemos querer estimar los parámetros $\theta$ con la ayuda de la regla de Bayes:

$$p(\theta|D)=\frac{p(D|\theta) * p(\theta)}{p(D)}$$

$$posterior = \frac{likelihood * prior}{evidence}$$

Las explicaciones son las siguientes:

Estimación de máxima probabilidad

Con el MLE, buscamos un valor puntual para $\theta$ que maximiza la probabilidad, $p(D|\theta)$ que se muestra en la(s) ecuación(es) anterior(es). Podemos denotar este valor como $\hat{\theta}$ . En MLE, $\hat{\theta}$ es una estimación puntual, no una variable aleatoria.

En otras palabras, en la ecuación anterior, la MLE trata el término $\frac{p(\theta)}{p(D)}$ como una constante y NO nos permite inyectar nuestras creencias previas, $p(\theta)$ sobre los valores probables de $\theta$ en los cálculos de la estimación.

Estimación bayesiana

La estimación bayesiana, por el contrario, calcula completamente (o a veces se aproxima) la distribución posterior $p(\theta|D)$ . La inferencia bayesiana trata $\theta$ como una variable aleatoria. En la estimación bayesiana, introducimos funciones de densidad de probabilidad y obtenemos funciones de densidad de probabilidad, en lugar de un único punto como en la MLE.

De todos los $\theta$ valores que posibilita la distribución de la salida $p(\theta|D)$ , nuestro trabajo consiste en seleccionar el valor que consideremos mejor en algún sentido. Por ejemplo, podemos elegir el valor esperado de $\theta$ suponiendo que su varianza sea lo suficientemente pequeña. La varianza que podemos calcular para el parámetro $\theta$ de su distribución posterior nos permite expresar nuestra confianza en cualquier valor específico que podamos utilizar como estimación. Si la varianza es demasiado grande, podemos declarar que no existe una buena estimación para $\theta$ .

Como contrapartida, la estimación bayesiana se hace compleja por el hecho de que ahora tenemos que tratar con el denominador en la regla de Bayes, es decir $evidence$ . Aquí la evidencia -o la probabilidad de la evidencia- está representada por:

$$p(D) = \int_{\theta} p(D|\theta) * p(\theta) d\theta$$

Esto nos lleva al concepto de "priores conjugados" en la estimación bayesiana. Para una función de verosimilitud dada, si podemos elegir cómo expresar nuestras creencias previas, debemos utilizar aquella forma que nos permita realizar la integración mostrada anteriormente. La idea de las priores conjugadas y su aplicación práctica se explican bastante bien en este puesto por COOlSerdash.

1 votos

¿Podría explicar mejor esto? : "el denominador en la regla de Bayes, es decir, la evidencia".

1 votos

He ampliado mi respuesta.

1 votos

@Berkan en la ecuación aquí, P(D|theta) es la probabilidad. Sin embargo, la función de probabilidad se define como P(theta|D), que es la función del parámetro, dados los datos. Siempre estoy confundido con esto. ¿El término probabilidad se refiere a cosas diferentes? ¿Podría explicarlo? Muchas gracias.

16voto

alexs77 Puntos 36

Creo que te refieres a la estimación puntual como en la inferencia paramétrica, de modo que podemos asumir un modelo de probabilidad paramétrico para un mecanismo generador de datos pero el valor real del parámetro es desconocido.

La estimación de máxima verosimilitud se refiere a la utilización de un modelo de probabilidad para los datos y la optimización de la función de verosimilitud conjunta de los datos observados sobre uno o más parámetros. Así, se ve que los parámetros estimados son más consistentes con los datos observados en relación con cualquier otro parámetro en el espacio de parámetros. Obsérvese que estas funciones de verosimilitud no se consideran necesariamente "condicionales" a los parámetros, ya que éstos no son variables aleatorias, por lo que es algo más sofisticado concebir la verosimilitud de varios resultados comparando dos parametrizaciones diferentes. Resulta que este es un enfoque filosóficamente sólido.

La estimación bayesiana es un poco más general porque no estamos necesariamente maximizando el análogo bayesiano de la probabilidad (la densidad posterior). Sin embargo, el tipo de estimación análoga (o estimación de modo posterior) se considera como la maximización de la probabilidad del parámetro posterior condicional a los datos. Normalmente, las estimaciones de Bayes obtenidas de este modo se comportan casi exactamente como las de ML. La diferencia clave es que la inferencia de Bayes permite un método explícito para incorporar información previa.

También 'La historia épica de la máxima probabilidad' es una lectura esclarecedora

http://arxiv.org/pdf/0804.2996.pdf

0 votos

¿Podría dar más detalles al respecto? "Sin embargo, el tipo de estimación análoga (o estimación del modo posterior) se considera como la maximización de la probabilidad del parámetro posterior condicional a los datos."

0 votos

El modo posterior es un poco inapropiado porque, con las DF continuas, el valor está bien definido. Las densidades posteriores están relacionadas con la verosimilitud en el caso frecuentista, salvo que permite simular parámetros a partir de la densidad posterior. Curiosamente, lo más intuitivo es pensar que la "media posterior" es la mejor estimación puntual del parámetro. Este enfoque se hace a menudo y, para densidades simétricas unimodales, esto produce intervalos creíbles válidos que son consistentes con el ML. La moda posterior es simplemente el valor del parámetro en el vértice de la densidad posterior.

0 votos

Sobre "esto produce intervalos creíbles válidos que son consistentes con el ML": Realmente depende del modelo, ¿no? Pueden ser consistentes o no...

3voto

nunya Puntos 21

La estimación bayesiana es una inferencia bayesiana, mientras que el MLE es un tipo de método de inferencia frecuentista.

Según la inferencia bayesiana, $f(x_1,...,x_n; \theta) = \frac{f(\theta; x_1,...,x_n) * f(x_1,...,x_n)}{f(\theta)}$ se mantiene, es decir $likelihood = \frac{posterior * evidence}{prior}$ . Obsérvese que la estimación de máxima verosimilitud trata la relación entre la evidencia y la previa como una constante (estableciendo la distribución previa como distribución uniforme/previa difusa/previa no informativa), $p(\theta) = 1/6$ al jugar a los dados, por ejemplo), que omite las creencias previas, por lo que el MLE se considera una técnica frecuentista (en lugar de bayesiana). Y la creencia previa puede no ser la misma en este escenario, porque si el tamaño de la muestra es lo suficientemente grande MLE equivale a MAP(para una deducción detallada por favor refiérase a esta respuesta ).

La alternativa de MLE en la inferencia bayesiana se denomina estimación máxima a posteriori (MAP, por sus siglas en inglés), y en realidad MLE es un caso especial de MAP en el que la prioridad es uniforme, como vemos arriba y como se indica en Wikipedia :

Desde el punto de vista de la inferencia bayesiana, la MLE es un caso especial de estimación máxima a posteriori (MAP) que asume una distribución previa uniforme de los parámetros.

Para más detalles, consulte este impresionante artículo: MLE vs MAP: la conexión entre la Máxima Verosimilitud y la Máxima Estimación a Posteriori .

Y una diferencia más es que la máxima verosimilitud es propensa al sobreajuste, pero si se adopta el enfoque bayesiano se puede evitar el problema del sobreajuste.

4 votos

Una de las cosas buenas de Bayes es que no estás obligado a calcular ninguna estimación puntual. Toda la densidad posterior puede ser su "estimación".

0 votos

@FrankHarrell Estimado profesor Harrell, ¿podría ayudarme a editar la respuesta si he cometido algún error terrible en alguna parte? Muchas gracias.

1 votos

No quise insinuar que te habías equivocado.

0voto

Alex Puntos 150

En principio, la diferencia es precisamente 0 - asintóticamente hablando :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X