Tengo un modelo de Markov oculto para clasificación binaria y dos conjuntos de datos:
- casos positivos
- casos negativos (muchos más datos que los positivos)
Para evaluar el rendimiento del modelo hice lo siguiente:
- Deje una validación cruzada sobre los casos positivos. Básicamente, elimine una instancia del conjunto positivo, entrene el resto, evalúe la instancia eliminada y guarde el resultado.
- Se entrena con todas las instancias positivas y luego se evalúa cada instancia negativa. Guardar los resultados
- Trace la curva ROC con los datos de 1 y 2.
Este enfoque requiere bastante tiempo, ya que tengo que entrenar mi modelo N+1 veces, donde N es igual al número de instancias positivas.
Alguien me sugirió que combinara ambos conjuntos de datos y luego los dividiera:
- 2/3 conjunto de entrenamiento
- Conjunto de evaluación 1/3
y mantener en ambos conjuntos el mismo porcentaje de casos positivos/negativos.
Tal vez he entendido algo mal, pero estoy un poco confundido en cuanto a cómo esto ayuda exactamente cuando tengo instancias negativas en los datos de entrenamiento?
¿No sesgaría eso negativamente mi clasificador al evaluar los 1/3 de casos restantes? Además, ¿obtendría menos puntos de datos para la curva ROC?
¿Alguien puede ayudar a aclarar el planteamiento o sugerir otro mejor?