45 votos

Diferencia entre Bayes ingenuo y Bayes ingenuo multinomial

He tratado con Bayes ingenuo clasificador antes. He estado leyendo sobre Bayas ingenuas multinomiales últimamente.

También Probabilidad Posterior = (Prior * Probabilidad)/(Evidencia) .

La única diferencia principal (mientras programaba estos clasificadores) que encontré entre Naive Bayes y Multinomial Naive Bayes es que

Bayas ingenuas multinomiales calcula que la probabilidad es recuento de una palabra/token (variable aleatoria) y Bayes ingenuo calcula la probabilidad de seguir:

enter image description here

Corrígeme si me equivoco.

2 votos

Encontrará mucha información en el siguiente pdf: cs229.stanford.edu/notes/cs229-notes2.pdf

0 votos

Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze. " Introducción a la recuperación de información. " 2009, el capítulo 13 sobre Clasificación de textos y Naive Bayes también es bueno.

59voto

Raffael Puntos 154

El término general Bayes ingenuo se refiere a los supuestos de fuerte independencia del modelo, más que a la distribución particular de cada característica. Un modelo Naive Bayes asume que cada una de las características que utiliza son condicionalmente independientes entre sí dada una clase. Más formalmente, si quiero calcular la probabilidad de observar las características $f_1$ a través de $f_n$ dada alguna clase c, bajo el supuesto de Naive Bayes se cumple lo siguiente:

$$ p(f_1,..., f_n|c) = \prod_{i=1}^n p(f_i|c)$$

Esto significa que cuando quiero utilizar un modelo Naive Bayes para clasificar un nuevo ejemplo, la probabilidad posterior es mucho más sencilla de trabajar:

$$ p(c|f_1,...,f_n) \propto p(c)p(f_1|c)...p(f_n|c) $$

Por supuesto, estos supuestos de independencia rara vez son ciertos, lo que puede explicar por qué algunos se han referido al modelo como el modelo "Idiot Bayes", pero en la práctica los modelos Naive Bayes han funcionado sorprendentemente bien, incluso en tareas complejas en las que está claro que los supuestos de independencia fuerte son falsos.

Hasta aquí no hemos dicho nada sobre la distribución de cada característica. En otras palabras, hemos dejado $p(f_i|c)$ indefinido. El término Bayas ingenuas multinomiales simplemente nos permite saber que cada $p(f_i|c)$ es una distribución multinomial, en lugar de cualquier otra distribución. Esto funciona bien para datos que pueden convertirse fácilmente en recuentos, como el recuento de palabras en un texto.

La distribución que has estado utilizando con tu clasificador Naive Bayes es una f.d.p. guasiana, así que supongo que podrías llamarlo clasificador Naive Bayes guasiano.

En resumen, el clasificador Naive Bayes es un término general que se refiere a la independencia condicional de cada una de las características del modelo, mientras que el clasificador Multinomial Naive Bayes es una instancia específica de un clasificador Naive Bayes que utiliza una distribución multinomial para cada una de las características.

Referencias:

Stuart J. Russell y Peter Norvig. 2003. Artificial Intelligence: A Modern Approach (2 ed.). Pearson Education. Véase en la p. 499 la referencia al "Bayes ingenuo", así como la definición general del modelo Naive Bayes y sus hipótesis de independencia.

0 votos

@jlund3, Gracias por la buena explicación. ¿Cómo incorporamos la información de la distribución en nuestro clasificador? Me refiero a cómo cambia la fórmula p(c|f1,...,fn)p(c)p(f1|c)...p(fn|c) en función de si es una distribución guasiana o multimodal.

0 votos

Gracias por la breve explicación, pero recomiendo el libro (Stuart J. Russell y Peter Norvig. 2003. Artificial Intelligence: A Modern Approach (2 ed.)) referenciado arriba para más conocimiento sobre NB y Técnicas de Inteligencia Artificial también..

2 votos

Los recuentos de la distribución multinomial no son independientes. véase mi pregunta aquí: datascience.stackexchange.com/questions/32016/

15voto

Craig Trader Puntos 8924

En general, para entrenar Naive Bayes para datos n-dimensionales, y k clases se necesita estimar $P(x_i | c_j)$ para cada $1 \leq i \leq n$ , $1 \leq j \leq k$ . Se puede asumir cualquier distribución de probabilidad para cualquier par $(i,j)$ (aunque es mejor no asumir una distribución discreta para $P(x_i|c_{j_1})$ y continua para $P(x_i | c_{j_2})$ ). Se puede tener una distribución Gaussiana en una variable, Poisson en otra y alguna discreta en otra variable más.

Naive Bayes multinomial simplemente asume una distribución multinomial para todos los pares, lo que parece ser una suposición razonable en algunos casos, por ejemplo, para el recuento de palabras en los documentos.

2voto

Mark Puntos 1621

Las respuestas anteriores son correctas. Esta respuesta intenta explicar cómo se relacionan las expresiones mencionadas.

El OP daba un caso específico de Naive Bayes Gaussiano, pero se puede derivar el Naive Bayes general, y luego el Naive Bayes Multinomial (con analogías con el ejemplo de recuento de palabras sugerido), como sigue:

Bayes (no Naive)

Por el teorema de Bayes, para cualquier variables $C_k$ y $\mathbf{x}$

$p(C_k \mid \mathbf{x}) = \frac{p(C_k) \ p(\mathbf{x} \mid C_k)}{p(\mathbf{x})} = \frac{p(C_k, \mathbf{x})}{p(\mathbf{x})}$

En $\mathbf{x}$ es un vector de pruebas $\langle x_1, \dots, x_n\rangle$ (por ejemplo proporción $x_i$ de cada palabra del vocabulario $i$ en un documento), entonces $p(C_k, \mathbf{x})$ = $p(C_k, x_1, \dots, x_n)$ (el numerador, o probabilidad de todas las observaciones en unión con el resultado)

Por el regla de la cadena esta unión puede ampliarse a: $p(C_k, x_1, \dots, x_n) = p(x_1 \mid x_2, \dots, x_n, C_k) \ p(x_2 \mid x_3, \dots, x_n, C_k) \dots p(x_{n-1} \mid x_n, C_k) \ p(x_n \mid C_k) \ p(C_k)$

Tenga en cuenta que el orden de los argumentos de $p$ no importa ya que son eventos que se unen y por lo tanto la función es conmutativa. Por lo tanto lo anterior es lo mismo que $p(x_n) p(x_{n-1}\mid x_n) \dots p(C_k|x_1\dots x_{n})$ (y cualquier variación).

Suposición de Bayes (ingenua)

En Suposición de Bayes es que $x_i$ son mutuamente independientes entre sí. Esto significa que $p(x_i|x_j) = p(x_i)$ para cualquier $x_i$ y $x_j$ y además, $p(x_i|\mathbf{\hat{x}}) = p(x_i)$ para cualquier $\mathbf{\hat{x}} \subset \mathbf{x} \setminus x_i $ .

Por lo tanto, la expansión de la regla de la cadena anterior se simplifica a un producto
$p(C_k, x_1, \dots, x_n) = p(C_k) \prod_{i=1}^n p(x_i \mid C_k)$

Bayes ingenuo general

Sustituyendo este resultado en la primera definición se obtiene $p(C_k \mid \mathbf{x}) = \frac{p(C_k)}{p(\mathbf{x})}\prod_{i=1}^n p(x_i \mid C_k)$

Versión Bernoulli

Para un Ensayo Bernoulli con dos resultados y probabilidad $q$ para uno de esos resultados, la probabilidad de que este resultado se produzca exactamente $k$ de $m$ veces es

$p(k, m)={m \choose k} q^k (1 - q)^{n-k}$

La analogía con el ejemplo de documento/palabra anterior, es tener dos palabras posibles, una de ellas que ocurra con proporción $q$ en el corpus, y calcular la probabilidad de que se produzca $k$ veces en un documento con $m$ palabras.

Versión multinomial

Probablemente tenga más de dos palabras en el vocabulario. La distribución multinomial no es más que una generalización de la distribución binomial derivada mediante un par de conceptos combinatorios: La identidad de Dixon y el número de maneras de formar un combinación .

$\frac{m!}{x_1!\cdots x_n!}q_1^{x_1}\cdots q_n^{x_n}$ donde $m = \sum\limits_{i=1}^{n}x_n$ (por ejemplo $m$ es el número de palabras del documento observado)

$p(\mathbf{x} \mid C_k) = \frac{(\sum_i x_i)!}{\prod_i x_i !} \prod_i {p_{ki}}^{x_i}$ $\implies p(C_k \mid \mathbf{x}) = \frac{p(C_k)}{p(\mathbf{x})} \frac{(\sum_i x_i)!}{\prod_i x_i !} \prod_i {p_{ki}}^{x_i}$ (de la sustitución en la ecuación general de Naive Bayes anterior)

Por razones prácticas, es posible que sólo le interesen las probabilidades relativas (elimine la necesidad de calcular $p(\mathbf{x})$ y sustituir " $=$ " con " $\varpropto$ ")

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X