103 votos

¿Cuándo los datos desequilibrados son realmente un problema en el aprendizaje automático?

Ya teníamos múltiples preguntas sobre el desequilibrio de los datos al utilizar regresión logística , SVM , árboles de decisión , embolsado y una serie de otras preguntas similares, ¡lo que hace que sea un tema muy popular! Lamentablemente, cada una de las preguntas parece ser específica de un algoritmo y no encontré ninguna guía general para tratar los datos desequilibrados.

Citando a una de las respuestas de Marc Claesen , tratando con datos desequilibrados

(...) depende en gran medida del método de aprendizaje. La mayoría de los enfoques de propósito general de propósito general tienen una (o varias) formas de abordar esto.

Pero, ¿cuándo debemos preocuparnos exactamente por los datos desequilibrados? ¿Qué algoritmos se ven más afectados por ella y cuáles son capaces de afrontarla? ¿Qué algoritmos necesitan que equilibremos los datos? Soy consciente de que discutir cada uno de los algoritmos sería imposible en un sitio de preguntas y respuestas como éste, más bien estoy buscando unas directrices generales sobre cuándo podría ser un problema.

49voto

Xenoactive Puntos 11

No es una respuesta directa, pero vale la pena señalar que en la literatura estadística, algunos de los prejuicios contra los datos desequilibrados tienen raíces históricas.

Muchos modelos clásicos se simplifican perfectamente bajo el supuesto de datos equilibrados, especialmente en el caso de métodos como el ANOVA que están estrechamente relacionados con el diseño experimental, una motivación tradicional / original para el desarrollo de métodos estadísticos.

Pero la aritmética estadística/probabilística se pone bastante fea, muy rápidamente, con datos desequilibrados. Antes de la adopción generalizada de los ordenadores, los cálculos a mano eran tan extensos que la estimación de modelos sobre datos no equilibrados era prácticamente imposible.

Por supuesto, los ordenadores han hecho que esto no sea un problema. Asimismo, podemos estimar modelos en conjuntos de datos masivos, resolver problemas de optimización de alta dimensión y extraer muestras de distribuciones de probabilidad conjuntas analíticamente intratables, todo lo cual era funcionalmente imposible hace como cincuenta años.

Es un problema antiguo, y los académicos dedicaron mucho tiempo a trabajar en el problema... mientras tanto, muchos problemas aplicados superaron / obviaron esa investigación, pero los viejos hábitos son difíciles de erradicar...

34voto

Mikec Puntos 59

Los datos desequilibrados sólo son un problema en función de su aplicación. Si, por ejemplo, sus datos indican que A ocurre el 99,99% de las veces y el 0,01% de las veces ocurre B, y usted intenta predecir un determinado resultado, su algoritmo probablemente dirá siempre A. ¡Esto es, por supuesto, correcto! Es poco probable que su método consiga una precisión de predicción superior al 99,99%. Sin embargo, en muchas aplicaciones no nos interesa sólo la exactitud de la predicción, sino también saber por qué a veces ocurre B. Aquí es donde los datos desequilibrados se convierten en un problema. Porque es difícil convencer a su método de que puede predecir mejor que el 99,99% de aciertos. El método es correcto pero no para su pregunta. Así que resolver los datos desequilibrados es básicamente sesgar intencionalmente sus datos para obtener resultados interesantes en lugar de resultados precisos. Todos los métodos son vulnerables aunque SVM y las regresiones logísticas tienden a ser un poco menos vulnerables mientras que los árboles de decisión son muy vulnerables.

En general, hay tres casos:

  1. tu interés se centra en la predicción precisa y crees que tus datos son reprensivos. En este caso no tienes que corregir nada, disfruta de la gloria de tus predicciones con un 99,99% de precisión :).

  2. Te interesa la predicción, pero tus datos proceden de una muestra justa, pero de alguna manera has perdido un número de observaciones. Si ha perdido observaciones de forma completamente aleatoria, sigue estando bien. Si las has perdido de forma sesgada, pero no sabes cómo de sesgada, necesitarás nuevos datos. Sin embargo, si estas observaciones se pierden sólo sobre la base de una característica. (por ejemplo, usted ordenó los resultados en A y B, pero no de otra manera, pero perdió la mitad de B) Ypu puede bootstrap sus datos.

  3. No le interesa una predicción global precisa, sino sólo en un caso raro. En este caso puedes inflar los datos de ese caso mediante el bootstrapping de los datos o si tienes suficientes datos tirando de una manera los datos de los otros casos. Tenga en cuenta que esto sesga los datos y los resultados, por lo que las probabilidades y ese tipo de resultados son erróneos.

En general, depende sobre todo de cuál sea el objetivo. Algunos objetivos sufren el desequilibrio de los datos, otros no. Todos los métodos de predicción generales lo sufren porque, de lo contrario, darían resultados terribles en general.

20voto

alexs77 Puntos 36

Esto podría ser. Podría ser que una prueba de que hay infinitos primos p y p+2 implicara la prueba de que hay infinitos primos p y p+2n para todo n = 1,2,3,4,... Esto también se llama a veces Conjetura de Polignac .

10voto

Ankaluth Fadia Puntos 1

Supongamos que tenemos dos clases:

  • A que representan el 99,99% de la población
  • B que representa el 0,01% de la población

Supongamos que estamos interesados en identificar elementos de clase B, que podrían ser individuos afectados por una enfermedad rara o estafadores.

Sólo con adivinar A Los alumnos obtendrían una alta puntuación en sus funciones de pérdida y los pocos elementos clasificados incorrectamente podrían no mover, numéricamente, la aguja (en un pajar, en este caso). Este ejemplo aporta la intuición detrás de uno de los "trucos" para mitigar el problema del desequilibrio de clases: ajustar la función de coste.

Creo que los datos no equilibrados son un problema cuando los modelos muestran una sensibilidad cercana a cero y una especificidad cercana a uno. Véase el ejemplo de este artículo en la sección "ignorando el problema" .

Los problemas tienen a menudo una solución. Junto con el truco antes mencionado, hay otras opciones . Sin embargo, tienen un precio: un aumento de la complejidad de los modelos y del cálculo.

La pregunta se refiere a qué modelos tienen más probabilidades de asentarse en una sensibilidad cercana a cero y una especificidad cercana a uno. Creo que depende de algunas dimensiones:

  • Menos capacidad, como siempre.
  • Algunas funciones de coste pueden tener más dificultades que otras: el error cuadrático medio (ECM) está menos expuesto que Huber - El MSE debería ser menos benévolo con los clasificados incorrectamente B elementos de clase.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X