Quiero entender la forma más simple del clasificador de Bayes (ver aquí) pero quiero entenderlo de una forma realmente precisa, limpia y matemática.
Descripción matemática del entorno:
Supongamos que $(\Omega, \mathcal{A}, P)$ es un espacio de probabilidad. Dotamos $\mathbb{R}$ con el álgebra sigma de Borel habitual $\mathcal{B}$ y asumir que $(E, \Sigma)$ es cualquier conjunto con álgebra sigma. Para un conjunto $A \in \mathcal{B}$ y un mapa $X : \Omega \to \mathbb{R}$ escribimos $[X \in A]$ (o a veces simplemente $X \in A$ sin los corchetes) para $\{\omega \in \Omega : X(\omega) \in a\}$ . Ocasionalmente también abreviamos $[X=a] := [X \in \{a\}]$ .
Sea $X_1, X_2 : \Omega \to \mathbb{R}$ y $Z : \Omega \to E$ sean funciones medibles. $X_1,X_2$ se denominan condicionalmente independientes dado $Z$ si para todos los conjuntos $A, B \in \mathcal{B}$ y todos los conjuntos $S \in \Sigma$ , $$P( [X \in A] \cap [Y \in B] ~\mathbf{|}~ Z \in S) = P(X \in A ~\mathbf{|}~ Z \in S) \cdot P(Y \in B~\mathbf{|}~Z \in S)$$
Ponemos $E = \{T, F\}$ con $\Sigma = \mathcal{P}(E) = \{\{\}, \{T\}, \{F\}, \{T,F\}\}$ (T significa "Verdadero" y F "Falso"). Dejamos que $Z$ surgen como el retroceso a $\Omega$ de un ( $\mathcal{B} \otimes \mathcal{B}-\Sigma-$ ) mapa medible $r : \mathbb{R} \times \mathbb{R} \to \{T,F\}$ (r = 'resultado', es decir, una función que clasifica los correos electrónicos para saber si son spam o no, o algo así).
* Suposición para hacer el clasificador Bayes: $X_1, X_2$ son condicionalmente independientes dado $Z$ *
El objetivo del clasificador Bayes es el siguiente: dados unos valores $(a_j, b_j) \in \mathbb{R} \times \mathbb{R}$ y $y_j \in \{T, F\}$ tal que $r(a_j, b_j) = y_j$ para $j=1,...,n$ , intente predecir para cada par $(a,b) \in \mathbb{R} \times \mathbb{R}$ si $r(a,b)=T$ o $r(a,b)=F$ .
Así es como se describe el entorno en la práctica:
Para un determinado $x=(a,b)$ calcular $P(T|x)$ y $P(F|x)$ y predecir ' $T$ si el primer valor es mayor que el segundo.
No sé qué se supone que significan estos símbolos, pero supongo que significan lo siguiente: El primer símbolo significa algo así como $P(Z=T|X=(a,b))$ con los dos símbolos ' $Z=T$ y $X=(a,b)$ como anteriormente (y el segundo análogamente con $F$ ).
P1: ¿Es correcto?
Así que ahora que los símbolos tienen sentido queremos calcular
$$P(T|(a,b)) = P(Z=T|X=(a,b)) = \frac{P(Z=T \cap X=(a,b))}{P(X=(a,b))}$$
Pero esto parece raro porque siempre que $X_1, X_2$ son variables aleatorias en $\mathbb{R}$ entonces los puntos suelen tener probabilidad cero (Por ejemplo, si se distribuyen normalmente entonces $P(X = (a,b)) = P_{X}(\{(a,b)\}) = P_{X_1}(\{a\}) \cdot P_{X_2}(\{b\}) = \int_{a}^a ... \cdot \int_{b}^b = 0 \cdot 0 = 0$ [tenga en cuenta que el ajuste $S$ ser todo $E$ obtenemos la independencia clásica a partir de la independencia condicional]).
P2: ¿Por qué no $P(X=(a,b)) = 0$ ¿Siempre?
Ahora queremos calcular este valor utilizando el teorema de Bayes:
$$P(Z=T|X=(a,b)) = \frac{P(X=(a,b)|Z=T) \cdot P(Z=T)}{P(X=(a,b))}$$ $$ = \frac{P(Z=T)}{P(X=(a,b))} \cdot P(X_1=a \cap X_2=b|Z=T)$$ $$ = \frac{P(Z=T)}{P(X=(a,b))} \cdot P(X_1=a|Z=T) \cdot P(X_2=b|Z=T)$$ por la independencia condicional.
Ignorando el denumerador y observando que podemos estimar efectivamente $P(Z=T)$ calculando "n.º de T dividido por $n$ ', nos queda el cálculo de los dos términos de la derecha.
En este artículo el autor los calcula de la siguiente manera: Dado un conjunto concreto de observaciones $$(a_1, b_1, y_1), ..., (a_m, b_m, y_m)$$ calculamos
$$\mu_{1,T} = \text{mean}(\{a_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=T\})$$ $$\mu_{2,T} = \text{mean}(\{b_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=T\})$$ $$\mu_{1,F} = \text{mean}(\{a_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=F\})$$ $$\mu_{2,F} = \text{mean}(\{b_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=F\})$$ $$\sigma_{1,T} = \sqrt{\text{var}(\{a_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=T\})}$$ $$\sigma_{2,T} = \sqrt{\text{var}(\{b_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=T\})}$$ $$\sigma_{1,F} = \sqrt{\text{var}(\{a_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=F\})}$$ $$\sigma_{2,F} = \sqrt{\text{var}(\{b_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=F\})}$$ y poner $$ f(x|\mu,\sigma) = \frac{1}{\sqrt{2\pi \sigma}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2} \right)$$
T $$P(X_1=a|Z=T) = f(a|\mu_{1,T}, \sigma_{1,T})$$
$$P(X_2=b|Z=T) = f(b|\mu_{2,T}, \sigma_{2,T})$$ etc.
P3: Supongo que se trata del mismo problema que el anterior: Suponiendo que $X_1$ se distribuye normalmente "en $[Z=T]$ no significa que los puntos individuales tengan una propabilidad (en particular, ¿por qué la propabilidad de un punto es un valor de la función de densidad? Esto me parece raro...)?
Saludos y THX por adelantado,
FW