Quiero construir un documento clasificador en R, utilizando el Naive Bayes enfoque.
Aquí están los pasos que he hecho hasta ahora:
- He corpus con cerca de 30 documentos de 2 autores (Clases son: objetivo "de autor" y "autor").
- "Vocabulario" (conjunto de entrenamiento) ha sido pre-procesado (eliminado números, eliminado los signos de puntuación, palabras en minúsculas, eliminado dejar de palabras, madre de documentos, quitar los espacios en blanco), y estoy considerando sólo palabras frecuentes (superior a 700).
-
Ahora tengo la matriz que se ve así:
Luego he entrenado mi clasificador utilizando Bayes el uso de algunos de los actuales R de la biblioteca, e1071.
Aquí están mis preguntas:
Quiero poner a prueba mi clasificador en otros documentos que no fueron parte del conjunto de entrenamiento.
- Cómo preparar mi matriz de datos? Lo que si aquellos otros documentos que no contengan todas las palabras (atributos) de mi conjunto de entrenamiento? Debo poner ficticio columnas (por ejemplo,
value=0
)? - ¿La posición de las palabras (el orden de las columnas) de la materia?
He aquí un ejemplo:
La formación de los atributos:
"wild" "wind" "woman"
Pruebas de atributos:
"woman" "wind" "wild"
Está bien, o debería columnas en el mismo orden como en la formación de la matriz?