1 votos

Comprendiendo el teorema de Bayes en el Análisis Discriminante Lineal (LDA)

Estoy leyendo Una Introducción al Aprendizaje Estadístico con Aplicaciones en R por Trevor Hastie y he llegado al Capítulo 4 Sección 4: Análisis Discriminante Lineal. En esta sección, el autor llega a una fórmula y no logro entender cómo llegó allí. ¿Alguien puede aclármelo? Aquí está el pasaje que precede a la ecuación.

introducir descripción de la imagen aquí

introducir descripción de la imagen aquí

Sé que el teorema de Bayes establece que P(A|B) = P(A)P(B|A) / P(B). No entiendo por qué él usa esa expresión para P(B)

2voto

Hamed Kamrava Puntos 647

Miré rápidamente el enlace y no vi la explicación más directa, pero tal vez lo revisé demasiado rápido. Expandir "$P(B)$" de esta manera utiliza la ley de la probabilidad total. La idea es que si tenemos una partición del espacio muestral, podemos encontrar $P(B)$ sumando las partes de probabilidad de $B$ encontradas en cada una de las particiones. Una partición significa simplemente que hemos dividido el espacio muestral de tal manera que cada punto se puede encontrar en exactamente una de las particiones o agrupaciones.

En tu caso, se asume que cada observación está en exactamente una de las $K$ clases, es decir, las clases son tu partición. Dicen que hay una variable aleatoria discreta $Y$ que representa la pertenencia a la clase $k$-ésima. El evento de que una observación pertenezca a la clase k-ésima es simplemente $\{Y=k\}$.

La ley de la probabilidad total se puede mostrar de la siguiente manera para $B \subseteq \Omega$ arbitrario, donde $\Omega$ es el espacio muestral. (o más formalmente $B \in \mathcal{F}$, donde $\mathcal{F}$ es la sigma álgebra apropiada).

\begin{align*} P(B) &= P(B \cap \Omega)\\ &= P(B \cap (\cup_{i=1}^K\{Y =i\}))\\ &= \sum_{i=1}^KP(B\cap \{Y =i\})\\ &= \sum_{i=1}^K P(B|\{Y =i\})P(\{Y =i\})\\ \end{align*}

La tercera línea sigue porque los eventos son disyuntos (no hay solape entre las clases) y la última línea sigue de la regla multiplicativa de la probabilidad.

Observa que $P(Y = i)$ es simplemente el peso $\pi_i$ para la clase i. De manera similar, en tu texto ellos notan $P(X=x|Y=k) = f_k(x)$ para ser la probabilidad de $X=x$ dada que está en la clase K si $X$ es discreto o la densidad de probabilidad de $X$ dada la pertenencia a la clase K si es continua. (No se muestra, pero la ley de la probabilidad total se puede extender al caso continuo cuando se trabaja con densidades).

Ahora, ¿por qué hacemos esto? La respuesta es porque es más fácil en la configuración dada por el problema. El modelo de clasificador asume una densidad para cada clase $f_i(x)$, pero no una densidad para las observaciones en general, $f(X=x)$. Entonces, para descubrir la densidad $f(X=x)$ es mucho más fácil dividir esto en las densidades del clasificador y la ley de la probabilidad total nos da una forma de hacerlo, simplemente sumando las densidades del clasificador ponderadas por la probabilidad de que ocurran. Esta técnica es tan útil y común que en muchos textos elementales de probabilidad la regla de Bayes se expresa directamente en la forma de partición (usualmente para la partición en el evento $A$ y su complemento, $A^c$).

0voto

@ttnphns compartió este enlace que contiene la respuesta: Análisis discriminante lineal y regla de Bayes: clasificación

¡Gracias! :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X