El razonamiento intuitivo se ha explicado en el blogpost:
Si nuestro objetivo es la predicción, esto provocará un sesgo definitivo. Y lo que es peor, será un sesgo permanente, en el sentido de que no tendremos estimaciones consistentes a medida que crezca el tamaño de la muestra.
Por lo tanto, podría decirse que el problema de los datos equilibrados (artificialmente) es peor que el caso de los desequilibrados.
Los datos equilibrados son buenos para la clasificación, pero obviamente se pierde información sobre las frecuencias de aparición, lo que va a afectar a las propias métricas de precisión, así como al rendimiento de la producción.
Digamos que está reconociendo las letras escritas a mano del alfabeto inglés (26 letras). El sobrebalanceo de la aparición de cada letra dará a cada letra una probabilidad de ser clasificada (correctamente o no) de aproximadamente 1/26, por lo que el clasificador se olvidará de la distribución real de las letras en la muestra original. Y es ok cuando el clasificador es capaz de generalizar y reconocer cada letra con alta precisión .
Pero si la precisión y, lo que es más importante, la generalización no es "tan alta" (no puedo darle una definición - puede pensar en ello sólo como un "peor caso") - los puntos mal clasificados se distribuirán muy probablemente por igual entre todas las letras, algo así como:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
Frente a sin equilibrar (asumiendo que "A" y "C" tienen probabilidades mucho más altas de aparecer en el texto)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
Así, los casos frecuentes tendrán menos errores de clasificación. Que sea bueno o no depende de la tarea. Para el reconocimiento de texto natural, se podría argumentar que las letras con mayor frecuencia son más viables, ya que preservarían la semántica del texto original, acercando la tarea de reconocimiento a la predicción (donde la semántica representa tendencias ). Pero si se trata de reconocer algo como la captura de pantalla de Clave ECDSA (más entropía -> menos predicción) - mantener los datos desequilibrados no ayudaría. Así que, de nuevo, depende.
La distinción más importante es que la estimación de la exactitud es, en sí misma, sesgada (como se puede ver en el ejemplo del alfabeto equilibrado), por lo que no se sabe cómo el comportamiento del modelo se ve afectado por los puntos más raros o más frecuentes.
P.D. Siempre puede seguir el rendimiento de la clasificación desequilibrada con Precisión/recuperación métrica primero y decida si necesita o no añadir balanceo.
EDITAR : Hay una confusión adicional que radica en teoría de la estimación precisamente en la diferencia entre media de la muestra y la media de la población. Por ejemplo, se puede conocer (posiblemente) la distribución real de las letras inglesas en el alfabeto $p(x_i | \theta)$ pero su muestra (conjunto de entrenamiento) no es lo suficientemente grande como para estimarla correctamente (con $p(x_i | \hat \theta)$ ). Por lo tanto, para compensar una $\hat \theta_i - \theta_i$ A veces se recomienda reequilibrar las clases en función de la propia población o de los parámetros conocido por una muestra mayor (por tanto, mejor estimador). Sin embargo, en la práctica no hay garantía de que la "muestra más grande" esté idénticamente distribuida debido al riesgo de obtener datos sesgados en cada paso (digamos que las letras inglesas recogidas de la literatura técnica frente a la ficción frente a toda la biblioteca) por lo que el equilibrio podría seguir siendo perjudicial.
Esta respuesta también debe aclarar los criterios de aplicabilidad para el equilibrio:
El problema del desequilibrio de clases se debe a que no hay suficientes patrones pertenecientes a la clase minoritaria, no por la proporción de patrones positivos y negativos en sí misma. En general, si se tienen suficientes datos, el "problema del desequilibrio de clases" no se plantea
Como conclusión, el equilibrio artificial rara vez es útil si el conjunto de entrenamiento es lo suficientemente grande. La ausencia de datos estadísticos de un idénticamente distribuidos La muestra también sugiere que no es necesario el equilibrio artificial (especialmente para la predicción), de lo contrario la calidad del estimador es tan buena como la "probabilidad de encontrarse con un dinosaurio":
¿Cuál es la probabilidad de encontrarse con un dinosaurio en la calle?
1/2 o te encuentras con un dinosaurio o no te encuentras con un dinosaurio