Tengo un conjunto de datos de 1000 opiniones de la categoría "arte" de Amazon. Quiero clasificar las valoraciones Positiva +1, Negativa -1, Neutral 0 utilizando las reseñas de los usuarios. El clasificador final de Naive Bayes sólo predice 0 para toda la muestra de entrenamiento. Voy a escribir mi proceso de construcción del clasificador y quiero saber por qué está fallando para clasificar otras clases.
- Encuentre todas las palabras únicas en las 1000 reseñas y acorte las palabras (por ejemplo: complacido, agradable -> por favor).
- Construir la matriz de características (1000 X tamaño del vector de palabras únicas) donde cada elemento es el número de veces que la palabra única aparece en el documento
- La operación por filas se multiplica por idf -> A 1 X (# de vector de palabras únicas). (# de documentos / # de documentos en los que aparece la palabra (i))
- Establecer Y como 3 factores (-1,0 o 1) 1000 X 1
- Entrenar y predecir
Resultados:
actual
predicted -1 0 1
-1 0 0 0
0 150 92 758
1 0 0 0
¿Me falta algo en la mezcla? Voy a publicar el código si se solicita, pero creo que mis procesos se hacen correctamente.