15 votos

Comparar la estimación de máxima verosimilitud (MLE) y Bayes ' Teorema

En el teorema Bayesiano, $$p(y|x) = \frac{p(x|y)p(y)}{p(x)}$$, and from the book I'm reading, $p(x|y)$ is called the likelihood, but I assume it's just the conditional probability of $x$ given $$ y, a la derecha?

La estimación de máxima verosimilitud intenta maximizar $p(x|y)$, ¿verdad? Si es así, estoy mal se confunde, porque $x,y$ son ambas variables aleatorias, ¿verdad? Para maximizar $p(x|y)$ es sólo para saber el $\hat y$? Un problema más, si estas 2 variables aleatorias son independientes, entonces la $p(x|y)$ es sólo $p(x)$, ¿verdad? A continuación, la maximización de la $p(x|y)$ es maximizar $p(x)$.

O tal vez, $p(x|y)$ es una función de algunos parámetros de $\theta$$p(x|y; \theta)$, y el MLE intenta encontrar el $\theta$ lo que puede maximizar $p(x|y)$? O incluso que $y$ es realmente de los parámetros del modelo, no de la variable aleatoria, la maximización de la probabilidad de encontrar el a $\hat y$?

ACTUALIZACIÓN

Soy un principiante en el aprendizaje de máquina, y este problema es una confusión de las cosas que he leído de una máquina de aprendizaje tutorial. Aquí es, dado un conjunto de datos observados $\{x_1,x_2,...,x_n\}$, los valores objetivo se $\{y_1,y_2,...,y_n\}$, y trato de ajustar un modelo a través de este conjunto de datos, por lo que supongo que, dado $x$, $y$ tiene una forma de distribución de la denominada $W$ parametrizada por $\theta$$p(y|x; \theta)$, y supongo que esta es la probabilidad posterior, derecho?

Ahora para calcular el valor de $\theta$, yo uso el MLE. OK, aquí viene mi problema, creo que la probabilidad es$p(x|y;\theta)$, ¿verdad? Maximizar la probabilidad significa que debe recoger el derecho $\theta$$y$?

Si mi comprensión de la probabilidad es incorrecto, por favor, muéstrame el camino correcto.

18voto

user777 Puntos 10934

Creo que el núcleo de la incomprensión de los tallos de las preguntas que realizó en la primera mitad de su pregunta. Me acerco a esta respuesta como contraste la MLE y Bayesiano inferencial paradigmas. Un muy accesible discusión de MLE se puede encontrar en el capítulo 1 de Gary King, Unificador de Metodología Política. Gelman Bayesiano de Análisis de Datos puede proporcionar detalles sobre el Bayesiano lado.

En el teorema de Bayes, $$p(y|x)=\frac{p(x|y)p(y)}{p(x)}$$ y en el libro que estoy leyendo, $p(x|y)$ se llama la probabilidad, pero supongo que es sólo la probabilidad condicional de a$x$$y$, ¿verdad?

La probabilidad es una probabilidad condicional. A un Bayesiano, esta fórmula describe la distribución del parámetro $y$ datos $x$ y antes de la $p(y)$. Pero ya que esta notación no refleja su intención, de ahora en adelante voy a usar ($\theta$,$y$) para los parámetros y $x$ para sus datos.

Pero su actualización indica que $x$ se observó a partir de algunos de distribución de $p(x|\theta,y)$. Si ponemos nuestros datos y parámetros en los lugares apropiados en la regla de Bayes, nos encontramos con que estos parámetros adicionales no plantean problemas para Bayesians: $$p(\theta|x,y)=\frac{p(x,y|\theta)p(\theta)}{p(x,y)}$$

Creo que esta expresión es lo que está después de la actualización.

La estimación de máxima verosimilitud intenta maximizar $p(x,y|\theta)$, ¿verdad?

Sí. MLE postula que $$p(x,y|\theta) \propto p(\theta|x,y)$$ Que es, se trata al término de $\frac{p(\theta,y)}{p(x)}$ como un desconocido (y desconocido) constante. Por el contrario, la inferencia Bayesiana trata $p(x)$ como de la normalización de la constante (por lo que las probabilidades de suma/integrar a la unidad) y $p(\theta,y)$ como una pieza clave de información: la previa. Podemos pensar de $p(\theta,y)$ como una forma de incurrir en una penalización en el procedimiento de optimización para "vagar demasiado lejos" de la región que nos parece más plausible.

Si es así, estoy mal se confunde, porque $x,y,\theta$ son variables aleatorias, ¿verdad? Para maximizar $p(x,y|\theta)$ es sólo para saber el $\hat{\theta}$?

En la MLE, $\hat{\theta}$ se supone que para ser un fijo de la cantidad que se desconoce pero que puede inferirse, no una variable aleatoria. La inferencia bayesiana trata $\theta$ como una variable aleatoria. La inferencia bayesiana pone a funciones de densidad de probabilidad de y consigue funciones de densidad de probabilidad a cabo, en lugar de punto de resúmenes de la modelo, como en el MLE. Es decir, la inferencia Bayesiana se ve en el rango completo de valores de los parámetros y la probabilidad de cada uno. MLE postula que $\hat{\theta}$ es un buen resumen de los datos dado el modelo.

3voto

Nick Russo Puntos 51

Normalmente $p(x|y)$ es una función del parámetro $y$. Considere la siguiente reformulación del teorema de Bayes:

$$p(\theta|x) = \frac{p(x|\theta)p(\theta)}{p(x)}$$

O más explícitamente (con respecto a la noción de la probabilidad):

$$p(\theta|x) = \frac{L(\theta;x)p(\theta)}{p(x)}$$

Para un ejemplo concreto, considere el modelo de

$$ X | \theta \sim Binomial(\theta) \\ \theta \sim Beta(\alpha,\beta) $$

1voto

Pat Puntos 1698
  • "...$p(x|y)$ se llama la probabilidad..."

$p(x|y)$ es la probabilidad de y dado x. Diciendo: ¿cuál es la probabilidad de que es importante. Y sí, es sólo la probabilidad condicional de a$x$$y$.

  • "...si estas 2 variables aleatorias son independientes, entonces la $p(x|y)$ es sólo $p(x)$, ¿verdad? A continuación, la maximización de la $p(x|y)$ es maximizar $p(x)$..."

Si son independientes, es decir,$p(x|y) = p(x)$, $p(x)$ es constante con respecto a $y$. Tenga cuidado aquí, ya que no se especifica lo que usted está maximizando con respecto a de lo que escribí antes, supongo que usted está maximizando con respecto a $y$.

  • ...O tal vez, $p(x|y)$ es una función de algunos parámetros de $\theta$$p(x|y;\theta)$, y el MLE intenta encontrar el $\theta$ lo que puede maximizar $p(x|y)$? O incluso que y es la realidad de los parámetros del modelo, no de la variable aleatoria, la maximización de la probabilidad de encontrar el a $\hat{y}$?...

La introducción de $\theta$ hace de este un totalmente nuevo problema. En general, la respuesta a la mayoría de aquí esta cuestión parece ser 'depende'. Nos podría indicar parámetros como $y$ si lo quería, y maximizar con respecto a ellos. Igualmente, podríamos tener una situación en la que nos maximizar $p(x|y;\theta)$ con respecto a los parámetros de $\theta$ si que fue una forma sensata de abordar el problema a la mano.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X