38 votos

¿Por qué naive Bayesiano de los clasificadores de realizar tan bien?

Bayes Naive de los clasificadores son una opción popular para problemas de clasificación. Hay muchas razones para esto, incluyendo:

  • "Zeitgeist" - una conciencia generalizada tras el éxito de los filtros de spam hace unos diez años
  • Fácil de escribir
  • El clasificador modelo es rápido para construir
  • El modelo puede ser modificado con los nuevos datos de entrenamiento sin tener que reconstruir el modelo

Sin embargo, se trata de "ingenuo", es decir, que asumen las funciones son independientes - esto contrasta con otros clasificadores tales como el Máximo de la Entropía de los clasificadores (que son lentos para calcular).

La independencia de la asunción normalmente no puede ser asumido, y en muchas (la mayoría?) de los casos, incluyendo el filtro de spam ejemplo, es simplemente incorrecto.

Entonces, ¿por qué el Clasificador Naive Bayes todavía se desempeñan muy bien en ese tipo de aplicaciones, incluso cuando las características no son independientes el uno del otro?

24voto

A.Schulz Puntos 264

La mayoría de Máquina de problemas de Aprendizaje de fácil!

Véase, por ejemplo, a John Langford del blog. Lo que en realidad está diciendo es que ML problemas de fácil, y esto presenta un problema para los investigadores en términos de si se debe tratar de aplicar métodos para una amplia gama de problemas simples o atacar problemas más difíciles. Sin embargo, el producto es que muchos de los problemas de los datos es Linealmente Separables (o al menos casi), en cuyo caso cualquier clasificador lineal funciona bien! Se da la circunstancia de que los autores de la original filtro de spam de papel eligió utilizar Bayes Naive, pero si hubieran utilizado un tipo perceptrón, SVM, Fisher, Análisis Discriminante, Regresión Logística, AdaBoost, o casi cualquier otra cosa probablemente habría funcionado tan bien.

El hecho de que es relativamente fácil para el código del algoritmo de ayuda. Por ejemplo, para el código de la SVM usted necesita tener un QP Solver, o usted necesita el código de seguridad de la SMO algoritmo que no es una tarea trivial. Usted podría, por supuesto, descargar libsvm pero en los primeros días que la opción no estaba disponible. Sin embargo, hay muchos otros algoritmos simples (incluyendo los de tipo perceptrón se mencionó anteriormente) que son tan fáciles de código (y permite actualizaciones incrementales como la pregunta menciona).

Para los difíciles problemas no lineales métodos que pueden lidiar con nonlinearites son necesarios, por supuesto. Pero incluso esto puede ser una tarea relativamente simple cuando Núcleo Métodos son empleados. La pregunta que a menudo se convierte en "¿Cómo puedo diseñar una efectiva del núcleo de la función para mis datos" en lugar de "Qué clasificador debo usar".

4voto

Sascha Puntos 306

Después de haber utilizado Naive Bayesiano Clasificadores ampliamente en la segmentación de las herramientas de clasificación, mi experiencia es consistente con los trabajos publicados que muestran la NBC para ser comparables en precisión lineal discriminante y el CARRO/CHAID cuando todas las variables predictoras están disponibles.

(Por la exactitud tanto de la "tasa de éxito" en la predicción de la solución correcta como el más probable, así como la calibración, es decir, un, digamos, el 75% de los miembros de la estimación es correcta en el 70%-80% de los casos).

Mis dos centavos es que la NBC funciona tan bien porque:

  • Inter-correlación entre las variables predictoras no es tan fuerte como uno podría pensar (información mutua de las puntuaciones de 0,05 a 0,15 son típicos)
  • NBC puede manejar discretos politómica variables bien, no lo que nos obliga a crudamente dividir ellos o tratar las variables ordinales como cardenal.
  • NBC utiliza todas las variables simultáneamente, mientras que el CARRO/CHAID uso solo un par de

Y es que cuando todas las variables observadas. Lo que hace que la NBC realmente se alejan de la manada es que con gracia se degrada cuando una o más variables predictoras son falta o no se observa. CARRO/CHAID y el análisis discriminante lineal dejar el piso en el que caso.

2voto

Evan Carroll Puntos 800

Este papel parece demostrar (no puede seguir las matemáticas) que de bayes, que no sólo es bueno cuando los elementos son independientes, pero también cuando las dependencias de las características de cada uno de los otros son similares entre características:

En este trabajo, proponemos una nueva explicación sobre la excelente rendimiento de la clasificación de naive Bayes. Nosotros muestran que, en esencia, la dependencia de la distribución; es decir, cómo la dependencia local de un nodo distribuye en cada uno de los clase, de manera uniforme o de manera desigual, y cómo el local dependencias de todos los nodos de trabajar juntos, de manera consistente (compatible con una determinada clasificación) o de forma incoherente (cancelación de uno a otro), juega un papel crucial. Por lo tanto, no importa lo fuerte que las dependencias entre los atributos son naive Bayes todavía puede ser óptima si las dependencias distribuir de manera uniforme en las clases, o si las dependencias se cancelan uno al otro

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X