Estoy haciendo el CS229:Machine Learning de Stanford Engineering Everywhere. Todo trhough el primer capítulo que utiliza
$$L(\theta) = P(Y | X; \theta)$$
es decir, la probabilidad del parámetro $\theta$ viene dada por la prob. cond. de Y dado X
Ahora, en el segundo capítulo, al hablar del Análisis Discriminante Gaussiano, de repente, sin ninguna explicación, nuestra probabilidad tiene este aspecto:
$$L(\theta) = P(Y \cap X; \theta)$$
¿Qué ha pasado aquí? ¿Qué función de verosimilitud se utiliza y cuándo? La primera probabilidad me parece una opción mucho más natural.
Me refiero a página 10 de este guión
0 votos
Convenios: La notación $Y\cup X$ es bastante inusual ya que $X$ y $Y$ son variables aleatorias. Una notación más natural sería $P(Y,X|\theta)$ . Obsérvese también que las mayúsculas suelen reservarse para las variables aleatorias, cuyas realizaciones se denotan con minúsculas.