2 votos

Traducción:Clasificador Bayes -> ¿matemáticas precisas?

Quiero entender la forma más simple del clasificador de Bayes (ver aquí) pero quiero entenderlo de una forma realmente precisa, limpia y matemática.

Descripción matemática del entorno:

Supongamos que $(\Omega, \mathcal{A}, P)$ es un espacio de probabilidad. Dotamos $\mathbb{R}$ con el álgebra sigma de Borel habitual $\mathcal{B}$ y asumir que $(E, \Sigma)$ es cualquier conjunto con álgebra sigma. Para un conjunto $A \in \mathcal{B}$ y un mapa $X : \Omega \to \mathbb{R}$ escribimos $[X \in A]$ (o a veces simplemente $X \in A$ sin los corchetes) para $\{\omega \in \Omega : X(\omega) \in a\}$ . Ocasionalmente también abreviamos $[X=a] := [X \in \{a\}]$ .

Sea $X_1, X_2 : \Omega \to \mathbb{R}$ y $Z : \Omega \to E$ sean funciones medibles. $X_1,X_2$ se denominan condicionalmente independientes dado $Z$ si para todos los conjuntos $A, B \in \mathcal{B}$ y todos los conjuntos $S \in \Sigma$ , $$P( [X \in A] \cap [Y \in B] ~\mathbf{|}~ Z \in S) = P(X \in A ~\mathbf{|}~ Z \in S) \cdot P(Y \in B~\mathbf{|}~Z \in S)$$

Ponemos $E = \{T, F\}$ con $\Sigma = \mathcal{P}(E) = \{\{\}, \{T\}, \{F\}, \{T,F\}\}$ (T significa "Verdadero" y F "Falso"). Dejamos que $Z$ surgen como el retroceso a $\Omega$ de un ( $\mathcal{B} \otimes \mathcal{B}-\Sigma-$ ) mapa medible $r : \mathbb{R} \times \mathbb{R} \to \{T,F\}$ (r = 'resultado', es decir, una función que clasifica los correos electrónicos para saber si son spam o no, o algo así).

* Suposición para hacer el clasificador Bayes: $X_1, X_2$ son condicionalmente independientes dado $Z$ *

El objetivo del clasificador Bayes es el siguiente: dados unos valores $(a_j, b_j) \in \mathbb{R} \times \mathbb{R}$ y $y_j \in \{T, F\}$ tal que $r(a_j, b_j) = y_j$ para $j=1,...,n$ , intente predecir para cada par $(a,b) \in \mathbb{R} \times \mathbb{R}$ si $r(a,b)=T$ o $r(a,b)=F$ .

Así es como se describe el entorno en la práctica:

Para un determinado $x=(a,b)$ calcular $P(T|x)$ y $P(F|x)$ y predecir ' $T$ si el primer valor es mayor que el segundo.

No sé qué se supone que significan estos símbolos, pero supongo que significan lo siguiente: El primer símbolo significa algo así como $P(Z=T|X=(a,b))$ con los dos símbolos ' $Z=T$ y $X=(a,b)$ como anteriormente (y el segundo análogamente con $F$ ).

P1: ¿Es correcto?

Así que ahora que los símbolos tienen sentido queremos calcular

$$P(T|(a,b)) = P(Z=T|X=(a,b)) = \frac{P(Z=T \cap X=(a,b))}{P(X=(a,b))}$$

Pero esto parece raro porque siempre que $X_1, X_2$ son variables aleatorias en $\mathbb{R}$ entonces los puntos suelen tener probabilidad cero (Por ejemplo, si se distribuyen normalmente entonces $P(X = (a,b)) = P_{X}(\{(a,b)\}) = P_{X_1}(\{a\}) \cdot P_{X_2}(\{b\}) = \int_{a}^a ... \cdot \int_{b}^b = 0 \cdot 0 = 0$ [tenga en cuenta que el ajuste $S$ ser todo $E$ obtenemos la independencia clásica a partir de la independencia condicional]).

P2: ¿Por qué no $P(X=(a,b)) = 0$ ¿Siempre?

Ahora queremos calcular este valor utilizando el teorema de Bayes:

$$P(Z=T|X=(a,b)) = \frac{P(X=(a,b)|Z=T) \cdot P(Z=T)}{P(X=(a,b))}$$ $$ = \frac{P(Z=T)}{P(X=(a,b))} \cdot P(X_1=a \cap X_2=b|Z=T)$$ $$ = \frac{P(Z=T)}{P(X=(a,b))} \cdot P(X_1=a|Z=T) \cdot P(X_2=b|Z=T)$$ por la independencia condicional.

Ignorando el denumerador y observando que podemos estimar efectivamente $P(Z=T)$ calculando "n.º de T dividido por $n$ ', nos queda el cálculo de los dos términos de la derecha.

En este artículo el autor los calcula de la siguiente manera: Dado un conjunto concreto de observaciones $$(a_1, b_1, y_1), ..., (a_m, b_m, y_m)$$ calculamos

$$\mu_{1,T} = \text{mean}(\{a_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=T\})$$ $$\mu_{2,T} = \text{mean}(\{b_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=T\})$$ $$\mu_{1,F} = \text{mean}(\{a_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=F\})$$ $$\mu_{2,F} = \text{mean}(\{b_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=F\})$$ $$\sigma_{1,T} = \sqrt{\text{var}(\{a_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=T\})}$$ $$\sigma_{2,T} = \sqrt{\text{var}(\{b_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=T\})}$$ $$\sigma_{1,F} = \sqrt{\text{var}(\{a_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=F\})}$$ $$\sigma_{2,F} = \sqrt{\text{var}(\{b_i | i \in \{1,...,n\} ~\text{is such that}~ y_i=F\})}$$ y poner $$ f(x|\mu,\sigma) = \frac{1}{\sqrt{2\pi \sigma}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2} \right)$$

T $$P(X_1=a|Z=T) = f(a|\mu_{1,T}, \sigma_{1,T})$$
$$P(X_2=b|Z=T) = f(b|\mu_{2,T}, \sigma_{2,T})$$ etc.

P3: Supongo que se trata del mismo problema que el anterior: Suponiendo que $X_1$ se distribuye normalmente "en $[Z=T]$ no significa que los puntos individuales tengan una propabilidad (en particular, ¿por qué la propabilidad de un punto es un valor de la función de densidad? Esto me parece raro...)?

Saludos y THX por adelantado,

FW

0voto

NP-hard Puntos 1872

En un clasificador Bayes ingenuo, normalmente hay que calcular $P(X | C_i)$ . En su contexto, son $P(X | T)$ y $P(X | F)$ . En $X$ es un atributo discreto, tanto $P(X | T)$ y $P(X | F)$ son fáciles de estimar a partir de los datos de entrenamiento. Sin embargo, si $X$ es un atributo continuo, existe una dificultad técnica. Como usted ha declarado, $P(X = x | F) = P(X = x | T) = 0$ . Esto no es de esperar. Para resolver este problema, el truco consiste en suponer que $$ P(X = x | T) = f(x | \mu_T, \sigma_T)\\ P(X = x | F) = f(x | \mu_F, \sigma_F) $$ tal que $P(X = x | T)$ y $P(X = x | F)$ no será igual a $0$ . $f$ aquí es el mismo que el de sus preguntas. Tenga en cuenta que $P$ aquí ya no es una probabilidad válida. De hecho, no entiendo muy bien la razón teórica para elegir la gaussiana. Pero intuitivamente, si se utiliza la gaussiana, cuanto más se acerque la $X$ a la media, mayor será la ponderación asignada (es decir, mayor será el valor $P(X | T)$ ). Esto es de esperar, ya que en los datos de entrenamiento es muy probable que la mayoría de los valores X estén cerca de la media, por lo que tienen más peso.

EDITAR:

$P(X | C_i)$ en mi opinión, no tiene por qué ser una probabilidad. Más bien, basta con un valor que represente el peso. Al predecir la etiqueta de clase para una nueva entrada, predecimos que la etiqueta es $T$ si $\frac{P(T | X)}{P(F | X)} > 1$ . Así, de hecho, la proporción de $\frac{P(X | T)}{P(X | F)}$ asuntos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X