6 votos

¿Por qué funciona mejor el Naive Bayes cuando el número de características >> tamaño de la muestra en comparación con algoritmos de ML más sofisticados?

Según este artículo

Debido a la suposición de independencia de clases, los clasificadores de Naive Bayes pueden aprender rápidamente a utilizar características de alta dimensión con datos de entrenamiento limitados en comparación con métodos más sofisticados. Esto puede ser útil en situaciones donde el conjunto de datos es pequeño en comparación con el número de características, como imágenes o textos.

¿Por qué Naive Bayes funciona bien cuando el número de características >> tamaño de la muestra en comparación con algoritmos de ML más sofisticados?

10voto

Amir Eldor Puntos 48

Lo que el autor está tratando de decir es que Naive Bayes trata implícitamente todas las características como independientes entre sí, por lo tanto, los tipos de problemas de maldición de dimensionalidad que suelen surgir al tratar con datos de alta dimensionalidad no se aplican.

Si tus datos tienen $k$ dimensiones, entonces un algoritmo de ML completamente general que intente aprender todas las posibles correlaciones entre estas características tiene que lidiar con $2^k$ interacciones de características posibles, y por lo tanto necesita del orden de $2^k$ datos para ser eficiente. Sin embargo, debido a que Naive Bayes asume independencia entre las características, solo necesita del orden de $k$ datos, exponencialmente menos.

Sin embargo, esto viene con el costo de solo poder capturar asignaciones mucho más simples entre las variables de entrada y la clase de salida, y como tal, Naive Bayes nunca podría competir con algo como una gran red neuronal entrenada en un conjunto de datos grande cuando se trata de tareas como el reconocimiento de imágenes, aunque podría desempeñarse mejor en conjuntos de datos muy pequeños.

0 votos

Gracias. ¿Puedes enlazar algún artículo o fuente que respalde este razonamiento?

0 votos

Para alguien cuyo nombre es ML_Pro, esto es algo que probablemente deberías saber ;) inf.ed.ac.uk/teaching/courses/inf2b/learnnotes/…

1 votos

Supongo que ahora estás feliz :D Solo por curiosidad, ¿puedes adivinar qué significa mi nombre de usuario?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X