5 votos

¿Cuál es la definición correcta de la función de verosimilitud?

Estoy haciendo el CS229:Machine Learning de Stanford Engineering Everywhere. Todo trhough el primer capítulo que utiliza

$$L(\theta) = P(Y | X; \theta)$$

es decir, la probabilidad del parámetro $\theta$ viene dada por la prob. cond. de Y dado X

Ahora, en el segundo capítulo, al hablar del Análisis Discriminante Gaussiano, de repente, sin ninguna explicación, nuestra probabilidad tiene este aspecto:

$$L(\theta) = P(Y \cap X; \theta)$$

¿Qué ha pasado aquí? ¿Qué función de verosimilitud se utiliza y cuándo? La primera probabilidad me parece una opción mucho más natural.

Me refiero a página 10 de este guión

0 votos

Convenios: La notación $Y\cup X$ es bastante inusual ya que $X$ y $Y$ son variables aleatorias. Una notación más natural sería $P(Y,X|\theta)$ . Obsérvese también que las mayúsculas suelen reservarse para las variables aleatorias, cuyas realizaciones se denotan con minúsculas.

5voto

Charan Puntos 11

Las dos probabilidades están relacionadas por la siguiente ecuación: $$P(Y \cap X\,|\,\Theta) = P(Y\,|\,X,\Theta)P(X\,|\,\Theta)$$ Por lo tanto, la probabilidad conjunta de $Y$ y $X$ tiene que tener en cuenta dos cosas:

  1. La probabilidad de generar $Y$ dado $X$ y $\Theta$
  2. La probabilidad de generar $X$ dado $\Theta$

$P(Y\,|\,X,\Theta)$ sólo tiene en cuenta (1), y sería preferible cuando sólo te interesa predecir Y cuando se conoce X. La probabilidad conjunta examina la probabilidad de generar tanto X como Y dado el parámetro del modelo $\Theta$ . Esto podría ser valioso si quiere que su modelo prediga X así como Y dado X. Dicho de otra manera, $P(X\,|\,\Theta)$ es una forma de medir hasta qué punto su modelo sabe qué tipos de $X$ en su conjunto de datos.

4voto

Dipstick Puntos 4869

Comience con definiciones generales de probabilidad. Con la probabilidad no estás realmente interesado en probabilidades, sino en probabilidad de $\theta$ dados sus datos. Se calcula utilizando la probabilidad de los datos utilizando algún modelo con parámetros $\theta$ es decir

$$L(\theta|X) = \prod_i f_\theta(x_i)$$

Ahora bien, en sus ejemplos se describen dos probabilidades diferentes. En el primer caso, se tiene un modelo de regresión de $Y$ condicionado a $X$ y en el segundo caso, tiene un probabilidad conjunta de $X$ y $Y$ en el modelo bivariante. Esto es lo mismo que se puede tener probabilidades condicionales y probabilidades conjuntas, ambas son probabilidades, por lo que tienen las mismas propiedades, pero describen casos diferentes.

0voto

shavenwarthog Puntos 101

Sólo parece que en el segundo caso, $X$ y $Y$ se modelan conjuntamente en un generativo y se puede escribir la probabilidad conjunta como $P(X, Y | \theta)$

Por ejemplo, ahora si suponemos que X e Y son independientes, la log-verosimilitud conjunta puede escribirse como:

$$ \log L(\theta) = \log P(X |\theta) + \log P(Y|\theta) $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X