Ya teníamos múltiples preguntas sobre el desequilibrio de los datos al utilizar regresión logística , SVM , árboles de decisión , embolsado y una serie de otras preguntas similares, ¡lo que hace que sea un tema muy popular! Lamentablemente, cada una de las preguntas parece ser específica de un algoritmo y no encontré ninguna guía general para tratar los datos desequilibrados.
Citando a una de las respuestas de Marc Claesen , tratando con datos desequilibrados
(...) depende en gran medida del método de aprendizaje. La mayoría de los enfoques de propósito general de propósito general tienen una (o varias) formas de abordar esto.
Pero, ¿cuándo debemos preocuparnos exactamente por los datos desequilibrados? ¿Qué algoritmos se ven más afectados por ella y cuáles son capaces de afrontarla? ¿Qué algoritmos necesitan que equilibremos los datos? Soy consciente de que discutir cada uno de los algoritmos sería imposible en un sitio de preguntas y respuestas como éste, más bien estoy buscando unas directrices generales sobre cuándo podría ser un problema.