Estamos tratando de hacer un POC sobre el uso de NaiveBayes
para clasificar un establecimiento por categoría.
Cargamos el siguiente conjunto de entrenamiento en R.
NAME_1,NAME_2,CHANNEL_5
Vanilla,Bar,Bar & Grill
Zen,Bar,Bar & Grill
cafe,havana,Bar & Grill
cafe,hollywood,Bar & Grill
monaco,grill,Bar & Grill
grill,grill,Bar & Grill
hunai,asian,Bar & Grill
Apple,Institute,School
devry,Institute,School
usu,College,School
suny,university,School
fashion,school,School
theater,study,School
Burger,King,Hamburger
Mighty,Burger,Hamburger
one,Burger,Hamburger
wendy,sandwich,Hamburger
Burger,Heaven,Hamburger
Burgler,Burger,Hamburger
Las columnas 1 y 2 contienen el nombre del establecimiento. La columna 3 es la clase.
library(e1071);
new_training_data <- read.table("C:/Users/test/08_jul_13_training.txt",
header=TRUE , sep="\t");
model1<-naiveBayes(new_training_data[,1:2],new_training_data[,3],laplace
=2);
test_data <- read.table("C:/Users/test/test1.txt", header=TRUE , sep="\t");
predict(model1, test_data[,1:2],type = c("class","raw"));
A continuación se muestra el conjunto de pruebas con la categoría esperada y el resultado real del clasificador NaiveBayes.
NAME_1,NAME_2,Expected_category,Actual_Result_from_Naive_bayes
my,Bar,Bar & Grill, Bar & Grill
cafe,milano,Bar & Grill, Hamburger
Teaching,Institute,School, Bar & Grill
devry,Institute,School, Bar & Grill
beauty,school,School, Bar & Grill
fashion,school,School, Bar & Grill
theater,school,School, Bar & Grill
Burger,Baja,Hamburger, Hamburger
Burger,Big,Hamburger, Hamburger
Pepsi,Cola,Hamburger, Bar & Grill
Burger,Supreme,Hamburger, Hamburger
Burger,King,Hamburger, Hamburger
my bar
se clasifica correctamente como Bar & grill
. Sin embargo Cafe Milano
se clasifica como Hamburger
en lugar de Bar & Grill
. estadísticamente hablando, la probabilidad de Bar
en my Bar
no es diferente de Cafe
en Cafe Milano
. ¿Algún consejo sobre cómo NaiveBayes
estos resultados será muy apreciada.