Utilizo un MLP con una capa oculta (15 nodos) y un nodo de salida. Utilizo una función de activación sigmoide, atan como función de error, el propio error se calcula con MSE, validación cruzada de 5 veces, retropropagación resistente para una tarea de clasificación binaria por lotes en la que dentro de cada lote hay disponibles aproximadamente 1000 muestras.
Mi conjunto de datos original tiene una proporción de aproximadamente 30/70 muestras positivas frente a negativas. Independientemente de la configuración de la NN que probé (más características, más muestras), el error de entrenamiento no bajaba de 0,1, la medida f que utilicé para la evaluación estaba entre 0,3-05, la precisión entre 0,6-0,8 y el recuerdo sólo entre 0,2-0,4.
A continuación, probé a realizar un sobremuestreo para aumentar el valor positivo/negativo a aproximadamente 1. Ahora, con la misma configuración, el error sólo disminuyó a 0,09, pero ahora obtengo una medida f constante de > 0,85, una precisión de alrededor de 0,8 y un recuerdo de 0,95-1 (¿?).
Ahora me estoy preguntando si mi configuración es completamente errónea o si he encontrado una forma de ajustar bien mis datos.
¿Alguien tiene alguna pista de dónde puedo haber cometido un error o cree que mi configuración está bien y mi clasificador también?