En el teorema Bayesiano, $$p(y|x) = \frac{p(x|y)p(y)}{p(x)}$$, and from the book I'm reading, $p(x|y)$ is called the likelihood, but I assume it's just the conditional probability of $x$ given $$ y, a la derecha?
La estimación de máxima verosimilitud intenta maximizar $p(x|y)$, ¿verdad? Si es así, estoy mal se confunde, porque $x,y$ son ambas variables aleatorias, ¿verdad? Para maximizar $p(x|y)$ es sólo para saber el $\hat y$? Un problema más, si estas 2 variables aleatorias son independientes, entonces la $p(x|y)$ es sólo $p(x)$, ¿verdad? A continuación, la maximización de la $p(x|y)$ es maximizar $p(x)$.
O tal vez, $p(x|y)$ es una función de algunos parámetros de $\theta$$p(x|y; \theta)$, y el MLE intenta encontrar el $\theta$ lo que puede maximizar $p(x|y)$? O incluso que $y$ es realmente de los parámetros del modelo, no de la variable aleatoria, la maximización de la probabilidad de encontrar el a $\hat y$?
ACTUALIZACIÓN
Soy un principiante en el aprendizaje de máquina, y este problema es una confusión de las cosas que he leído de una máquina de aprendizaje tutorial. Aquí es, dado un conjunto de datos observados $\{x_1,x_2,...,x_n\}$, los valores objetivo se $\{y_1,y_2,...,y_n\}$, y trato de ajustar un modelo a través de este conjunto de datos, por lo que supongo que, dado $x$, $y$ tiene una forma de distribución de la denominada $W$ parametrizada por $\theta$$p(y|x; \theta)$, y supongo que esta es la probabilidad posterior, derecho?
Ahora para calcular el valor de $\theta$, yo uso el MLE. OK, aquí viene mi problema, creo que la probabilidad es$p(x|y;\theta)$, ¿verdad? Maximizar la probabilidad significa que debe recoger el derecho $\theta$$y$?
Si mi comprensión de la probabilidad es incorrecto, por favor, muéstrame el camino correcto.