Que estoy enfrentando una tarea de análisis de sentimiento donde estoy usando el Naive Bayes para clasificar documentos como positivo, negativo o neutro. He pensado en usar información ganar como mi filtro para selección de características. ¿Teniendo en cuenta que es necesario clasificar en 3 clases, sería aceptable utilizar IG sin más modificaciones (ya que creo que IGain funciona mejor con 2 clases)?
Respuesta
¿Demasiados anuncios?Ganancia de información es un objetivo razonable a utilizar para la selección de características (incluso cuando hay varias clases). Tenga en cuenta que la obtención de información es un tradicional métrica para la selección de decisión de los atributos para la construcción de árboles de decisión. Tenga en cuenta que un problema clásico de la decisión tress es cuando a detener la adición de nodos de decisión---demasiados nodos, por lo general conduce a la generalización de los pobres. IG le ayudará a determinar un orden de las características de la mayoría de los útiles a menos útil. Vas a necesitar otro método (tales como la evaluación de un conjunto) para determinar un punto de corte.
Usted puede estar interesado en la lectura de Un Estudio Comparativo de la Selección de características en la Categorización de Texto (1997), el cual evalúa IG en contra de otros métodos.
Tenga en cuenta que su problema se parece más al regresión ordinal (que codifica un orden en las etiquetas) de clasificación regular.