En una pregunta reciente y bien recibida, Tim pregunta cuándo los datos desequilibrados son realmente un problema en el aprendizaje automático ? La premisa de la pregunta es que hay mucha literatura de aprendizaje automático que discute balance de clases y el problema de las clases desequilibradas . La idea es que los conjuntos de datos con un desequilibrio entre la clase positiva y la negativa causan problemas para algunos algoritmos de clasificación de aprendizaje automático (estoy incluyendo los modelos probabilísticos aquí), y se deben buscar métodos para "equilibrar" el conjunto de datos, restaurando la división perfecta de 50/50 entre las clases positivas y negativas.
El sentido general de las respuestas votadas es que "no lo es, al menos si se es reflexivo en el modelado". M. Henry L., en un comentario votado a una respuesta aceptada, afirma
[...] no hay un problema de bajo nivel con el uso de datos desequilibrados. En mi experiencia, el consejo de "evitar los datos desequilibrados" es específico del algoritmo, o bien sabiduría heredada. Estoy de acuerdo con AdamO en que, en general, los datos desequilibrados no suponen ningún problema conceptual para un modelo bien especificado.
AdamO argumenta que el "problema" del equilibrio de clases es realmente uno de clase rareza
Por lo tanto, al menos en la regresión (pero sospecho que en todas las circunstancias), el único problema con los datos desequilibrados es que efectivamente tienes un tamaño de muestra pequeño. Si cualquier método es adecuado para el número de personas de la clase más rara, no debería haber ningún problema si su proporción de miembros está desequilibrada.
Si esta es la verdadera cuestión, deja una pregunta abierta: ¿para qué sirven todos los métodos de remuestreo destinados a equilibrar el conjunto de datos: sobremuestreo, submuestreo, SMOTE, etc.? Está claro que no abordan el problema de tener implícitamente un tamaño de muestra pequeño, ¡no se puede crear información de la nada!