Hay cuestiones científicas con el uso de ML para ayudar a los humanos anotación?
Tengo un 3 clase sin etiquetar conjunto de datos donde sólo 1 de cada 500 elementos pertenecen a la 2 clases de interés.
Las etiquetas de arn no trivialmente perceptible por todos los elementos de la sin etiquetar los datos, sin embargo, como la mayoría de los elementos de la mayoría de la clase son fácilmente dectable por un simple NN podría ser utilizado para filtrar la mayoría de los elementos de la mayoría de la clase, con lo que el número disminuya alrededor de 1 en 100, y el aumento de la eficacia de anotadores humanos tiempo de 50x. El etiquetado de los conjunto de datos se utilizarán para entrenar, probar y validar un classifer.
Sin embargo puedo prever razones por las que esto podría causar un problema específicamente desde un punto de vista académico:
- Si el anotado de datos es representativo debido a un sesgo en la ML antes de que el hombre de anotación de la clasificador podría tener dificultades para generalizar
- El uso de un ML de datos-cleaner, que no se basa en humanos suministrado, justificable reglas, pone un cuadro negro en el principio de que el análisis de los datos de proceso
- Sólo anotar una pequeña proporción de la alta prevalencia de la clase hace que el conjunto de datos muy selectivo, que esto sería invitar a la crítica sobre el uso indebido de este sesgo (es decir, la manipulación de una determinada hipótesis)
Todos los pensamientos apreciado