5 votos

Problema en la evaluación de Bayes naive

Estoy tratando de entender naive Bayes y su aplicación a la clasificación de textos. Tengo una duda o este puede ser mi error.

Supongamos que tenemos dos categorías de "Noticias" y "Deportes", en la que necesitamos para clasificar cualquier documento. Permitir que el diccionario sólo contienen palabras clave 3 ${news,football,tennis}$ con los siguientes parámetros

\begin{align*} P(news/News)&=0.99,P(news/Sports)=0.01,P(tennis/Sports)=0.9,\\ P(tennis/News)&=0.1,P(football/Sports)=0.9,P(football/News)=0.1, \\ P(Sports)&=0.5 ,P(News)=0.5,P((news,football,tennis))=k; \end{align*}

Tenemos un documento que tiene todas las tres palabras clave. Así que cuando evaluamos \begin{align} P(News/(news,football,tennis))=0.99\cdot0.1\cdot0.1\cdot0.5/k=0.00495/k\\ P(Sports/(news,football,tennis))=0.01\cdot0.9\cdot0.9\cdot0.5/k=0.00405/k \end{align}

Así, el documento se clasifica en "Noticias" de la categoría, pero intuitivamente sabemos que ésta debe pertenecer a los "Deportes" de la categoría.

1voto

pkaeding Puntos 12935

Bien: naive Bayes se llama ingenuo por una razón: el supuesto de independencia condicional es a menudo dudosa, aunque resulta que funciona bien en un montón de casos prácticos.

Además de que: se han "elegido" sus probabilidades condicionales por lo que resulta de esta manera. No hay ningún (a priori) la razón por P(tenis|Noticias) y P(tenis|Deportes) deben sumar 1, pero en este caso esto lleva a resultados poco intuitivos.

1voto

merriam Puntos 67

Ingenua de un clasificador de Bayes, como el nombre sugiere, es una simple aplicación del Teorema de Bayes. Básicamente, se calcula la probabilidad de que las cantidades de interés (generalmente inadvertido, llamados parámetros o latente clases) basado en los datos observados. En el caso de que los datos observados son: noticias, fútbol y tenis. Las cantidades de interés para el que desea calcular las probabilidades son: las Noticias y los Deportes. Parece que usted está interesado en el cálculo: $P(\text{News}|\text{news}, \text{football}, \text{tennis}), P(\text{News}|\text{news}, \text{football}, \text{tennis})$.

Ahora vamos a usar el teorema de Bayes para obtener:

$$ P(\text{Noticias}|\text{noticias}, \text{fútbol}, \text{tenis}) = \frac{P(\text{noticias}, \text{fútbol}, \text{tenis}|\text{Noticias})P(\text{Noticias})}{P(\text{noticias}, \text{fútbol}, \text{tenis})} $$ El primer término en el numerador se calcula utilizando el hecho de que dado observar la clase latente, es decir, las Noticias, los datos observados, que es de noticias, fútbol, tenis y las probabilidades son independientes (esto puede ser cuestionable la asunción, pero la respuesta depende de la materia). Usted puede usar la ley para el cálculo de la probabilties de evento independiente.
$$ P(\text{noticias}, \text{fútbol}, \text{tenis}|\text{Noticias})=P(\text{noticias}|\text{Noticias})P( \text{fútbol}|\text{Noticias})P(\text{tenis}|\text{Noticias}) $$

Proceder del mismo modo para los Deportes, obtenemos:

$$ P(\text{Deportes}|\text{noticias}, \text{fútbol}, \text{tenis}) = \frac{P(\text{noticias}, \text{fútbol}, \text{tenis}|\text{Deportes})P(\text{Deportes})}{P(\text{noticias}, \text{fútbol}, \text{tenis})} $$ $$ P(\text{noticias}, \text{fútbol}, \text{tenis}|\text{Deportes})=P(\text{noticias}|\text{Deportes})P( \text{fútbol}|\text{Deportes})P(\text{tenis}|\text{Deportes}) $$

El denominador en ambos casos se puede calcular mediante la Ley de total probabilidad.

$$ P(\text{noticias}, \text{fútbol}, \text{tenis}) =P(\text{noticias}, \text{fútbol}, \text{tenis}|\text{Noticias})P(\text{Noticias})+ P(\text{noticias}, \text{fútbol}, \text{tenis}|\text{Deportes})P(\text{Deportes}) $$

Ahora estamos a la izquierda con sólo una probabilidad en cada caso, es decir,$P(\text{News})$$P(\text{Sports})$, respectivamente. Si sabemos que estos, cada probabilidad hasta ahora puede ser calculado. Esto puede ser determinado con base en el conocimiento previo, o en su caso podría ser proporcionados a usted.

Conectar todas las probabilidades le da las probabilidades de interés.

Un alto valor de probabilidad para una clase específica implica que el observado documento pertenece a esa clase (Noticias o Deportes). Pero, ¿cómo se decidió "¿qué tan alto es alto", depende, de nuevo, en la materia y un montón de otras cuestiones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X