7 votos

Uso de ML para ayudar al etiquetado humano en el conjunto de datos con clases altamente desequilibradas

Hay cuestiones científicas con el uso de ML para ayudar a los humanos anotación?

Tengo un 3 clase sin etiquetar conjunto de datos donde sólo 1 de cada 500 elementos pertenecen a la 2 clases de interés.

Las etiquetas de arn no trivialmente perceptible por todos los elementos de la sin etiquetar los datos, sin embargo, como la mayoría de los elementos de la mayoría de la clase son fácilmente dectable por un simple NN podría ser utilizado para filtrar la mayoría de los elementos de la mayoría de la clase, con lo que el número disminuya alrededor de 1 en 100, y el aumento de la eficacia de anotadores humanos tiempo de 50x. El etiquetado de los conjunto de datos se utilizarán para entrenar, probar y validar un classifer.

Sin embargo puedo prever razones por las que esto podría causar un problema específicamente desde un punto de vista académico:

  • Si el anotado de datos es representativo debido a un sesgo en la ML antes de que el hombre de anotación de la clasificador podría tener dificultades para generalizar
  • El uso de un ML de datos-cleaner, que no se basa en humanos suministrado, justificable reglas, pone un cuadro negro en el principio de que el análisis de los datos de proceso
  • Sólo anotar una pequeña proporción de la alta prevalencia de la clase hace que el conjunto de datos muy selectivo, que esto sería invitar a la crítica sobre el uso indebido de este sesgo (es decir, la manipulación de una determinada hipótesis)

Todos los pensamientos apreciado

0voto

obaqueiro Puntos 360

Si hay un modelo que se puede etiquetar sus datos para usted, entonces ¿por qué aún tren?

Yo diría que el uso de otro modelo a los datos de una etiqueta para un modelo que es malo. En primer lugar, si existe un modelo mejor que se puede etiquetar un conjunto de datos ¿por qué no usar simplemente que buen modelo en su lugar. En segundo lugar, si las clases son muy desequilibrada que es mucho más que la razón por la que quiere etiquetas precisas para que su modelo puede hacerlo mejor. De lo contrario, usted está algo confuso, ¿por qué lo harían?

Los datos de etiquetado es una ardua tarea para los seres humanos, pero es por eso que estamos tratando de hacer que las máquinas lo suficientemente bueno para que podamos en algún momento deja de hacer eso.

Si desea una forma más fácil, empezar por sólo el etiquetado de la clase minoritaria y, a continuación, el etiquetado de un número igual de las otras clases de tren y el uso que, de tal manera que el conjunto de datos ya no está más desequilibrada. Por ejemplo decir que u tiene 100 muestras de 10, 40, 50 son el número de muestras en cada clase. Así que usted tendrá que empezar por el etiquetado de los 10, en el ejemplo 10 de los 40 y los 50 y con la etiqueta demasiado; luego entrenar un modelo en un conjunto de datos de su 30 muestras que son imparciales. Este método tiene sus pros y sus contras, pero voy a parar aquí como que no era tu pregunta original.

0voto

geompalik Puntos 108

Es cierto que por lo general, más los datos de plomo en la mejor de las decisiones. En su caso, lo que estamos tratando de hacer es acelerar el proceso de etiquetado y de la manera que propongo hacer es válido.

Tener un clasificador que generaliza bien a la verdadera distribución de los datos de entrenamiento es otro tema. Usted puede asegurarse de esto mediante la evaluación de la clasificador en un conjunto de exclusiones dividida en un estratificado. Ya que es más barato para obtener muestras de una de las clases que usted puede equilibrar el conjunto de entrenamiento en un paso posterior (por encima/por debajo de muestreo), después de tener la etiqueta de los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X