2 votos

Clasificador binario: división del conjunto de datos en conjuntos de entrenamiento y evaluación

Tengo un modelo de Markov oculto para clasificación binaria y dos conjuntos de datos:

  • casos positivos
  • casos negativos (muchos más datos que los positivos)

Para evaluar el rendimiento del modelo hice lo siguiente:

  1. Deje una validación cruzada sobre los casos positivos. Básicamente, elimine una instancia del conjunto positivo, entrene el resto, evalúe la instancia eliminada y guarde el resultado.
  2. Se entrena con todas las instancias positivas y luego se evalúa cada instancia negativa. Guardar los resultados
  3. Trace la curva ROC con los datos de 1 y 2.

Este enfoque requiere bastante tiempo, ya que tengo que entrenar mi modelo N+1 veces, donde N es igual al número de instancias positivas.

Alguien me sugirió que combinara ambos conjuntos de datos y luego los dividiera:

  • 2/3 conjunto de entrenamiento
  • Conjunto de evaluación 1/3

y mantener en ambos conjuntos el mismo porcentaje de casos positivos/negativos.

Tal vez he entendido algo mal, pero estoy un poco confundido en cuanto a cómo esto ayuda exactamente cuando tengo instancias negativas en los datos de entrenamiento?

¿No sesgaría eso negativamente mi clasificador al evaluar los 1/3 de casos restantes? Además, ¿obtendría menos puntos de datos para la curva ROC?

¿Alguien puede ayudar a aclarar el planteamiento o sugerir otro mejor?

4voto

AlberT Puntos 6591

Los clasificadores suelen intentar encontrar el mejor ajuste para todos los datos. En caso de desequilibrio, cuando hay muchas más muestras negativas que positivas, el clasificador prestará más atención a la clase negativa para obtener un error global pequeño. El desequilibrio puede ser intrínseco o extrínseca es decir, los desequilibrios intrínsecos son un resultado directo causado por la naturaleza del espacio de datos (por ejemplo, enfermedades raras) y los desequilibrios extrínsecos son el resultado de ciertas limitaciones (tiempo, espacio, dinero, etc.) en las que se encuentra en realidad el espacio de datos no desequilibrada. Además, puede ocurrir que sólo el conjunto de datos de entrenamiento o el de prueba estén desequilibrados. Personalmente, yo empezaría con la validación cruzada estratificada, en la que se garantiza que la proporción entre la clase positiva y la negativa es la misma en cada pliegue y la misma que en el conjunto de datos global.

Para tratar el desequilibrio en sí hay varios métodos que lo hacen. Una forma sencilla sería aumentar el peso de las muestras de la clase positiva en comparación con las de la clase negativa, lo que hace que el clasificador sea sensible a los costes. Se puede encontrar una introducción a todos los métodos disponibles en

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X