1 votos

Mejor precisión con el conjunto de validación que con el conjunto de prueba

He entrenado un modelo con algunos algoritmos como el bosque aleatorio, la regresión logística, etc.

Mi conjunto de datos se dividió en un 80% de datos de entrenamiento de CV (así que en realidad el 60% de los datos para entrenar el modelo y el 20% para probar con cv). Construí mi modelo y ahora estoy usando el último 20% (que no usé todo el tiempo) pero me pregunto por qué la precisión predictiva es mejor con el conjunto de validación que con el conjunto de entrenamiento.

  • validación de la especificidad: 0.62962963
  • validación de la sensibilidad: 0.94761905

a la izquierda la media, a la derecha la desviación estándar (+/-) con una validación cruzada de 10 veces

  • especificidad_entrenamiento: 0,55 (+/- 0,10)
  • recall_train: 0,94 (+/- 0,02)

¿He hecho algo mal? Pensé que esto es lo normal / la mejor manera de probar, si el modelo está sobreajustado o no. ¿O está bien debido a la desviación estándar?

6voto

cbeleites Puntos 12461

Reconstruir los recuentos absolutos a partir de su información:

conjunto de pruebas:

         total cases     correct cases    correct    approx. 95 % c.i.
class 0           81                51       63 %          52 % - 73 %
class 1          210               199       95 %          91 % - 97 %

Si se comparan los intervalos de confianza para la sensibilidad y la especificidad del conjunto de pruebas con la sensibilidad y la especificidad observadas en la validación cruzada, ambos resultados de CV se encuentran realmente dentro del intervalo de confianza.

También se pueden calcular intervalos de confianza para los resultados de la validación cruzada.

Si todos sus modelos (LR, rF, ...) constantemente muestran esta diferencia, entonces yo sospecharía si el conjunto de pruebas difiere realmente de alguna manera importante del conjunto de entrenamiento.
Explica que guardó el último 20% para pruebas independientes, y eso puede ser causa de problemas si hay alguna deriva en los datos.

Que esta comparación entre la retención y la validación cruzada sea la mejor opción depende en gran medida de si se dispone de suficientes muestras para permitirse apartar el conjunto de retención. Básicamente, se paga por la insesgadez con intervalos de confianza mucho más amplios debido al menor número de casos de prueba.
Sin embargo, puede calcular de antemano si la incertidumbre de la prueba de retención le permite sacar las conclusiones que necesita.

Si necesita bibliografía, tenemos un documento en el que tratamos esto con más detalle: Beleites, C. y otros: Planificación del tamaño de la muestra para modelos de clasificación, Anal Chim Acta, 760, 25-33 (2013).
(también disponible en arXiv: 1211.1323 )


Puede calcular los intervalos de confianza binomiales, por ejemplo, en R mediante

library (binom)
binom.confint (51, 81)

Nota al margen: la desviación estándar sobre los pliegues de validación cruzada es una medida algo incómoda, ya que confunde la estabilidad del modelo con el tamaño de la muestra de prueba.

0voto

Esto es normal

precisión del entrenamiento > precisión de la validación > precisión de la prueba

Pero algunas veces cuando se tiene poca cantidad de datos puede haber cambios en esta ecuación

Por ejemplo, al principio, en las primeras tandas de aprendizaje, se suele ver que:
precisión de entrenamiento < precisión de validación
Esto se debe a que el algoritmo aún no ha "aprendido" lo suficiente sobre la estructura de los datos

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X