Reconstruir los recuentos absolutos a partir de su información:
conjunto de pruebas:
total cases correct cases correct approx. 95 % c.i.
class 0 81 51 63 % 52 % - 73 %
class 1 210 199 95 % 91 % - 97 %
Si se comparan los intervalos de confianza para la sensibilidad y la especificidad del conjunto de pruebas con la sensibilidad y la especificidad observadas en la validación cruzada, ambos resultados de CV se encuentran realmente dentro del intervalo de confianza.
También se pueden calcular intervalos de confianza para los resultados de la validación cruzada.
Si todos sus modelos (LR, rF, ...) constantemente muestran esta diferencia, entonces yo sospecharía si el conjunto de pruebas difiere realmente de alguna manera importante del conjunto de entrenamiento.
Explica que guardó el último 20% para pruebas independientes, y eso puede ser causa de problemas si hay alguna deriva en los datos.
Que esta comparación entre la retención y la validación cruzada sea la mejor opción depende en gran medida de si se dispone de suficientes muestras para permitirse apartar el conjunto de retención. Básicamente, se paga por la insesgadez con intervalos de confianza mucho más amplios debido al menor número de casos de prueba.
Sin embargo, puede calcular de antemano si la incertidumbre de la prueba de retención le permite sacar las conclusiones que necesita.
Si necesita bibliografía, tenemos un documento en el que tratamos esto con más detalle: Beleites, C. y otros: Planificación del tamaño de la muestra para modelos de clasificación, Anal Chim Acta, 760, 25-33 (2013).
(también disponible en arXiv: 1211.1323 )
Puede calcular los intervalos de confianza binomiales, por ejemplo, en R mediante
library (binom)
binom.confint (51, 81)
Nota al margen: la desviación estándar sobre los pliegues de validación cruzada es una medida algo incómoda, ya que confunde la estabilidad del modelo con el tamaño de la muestra de prueba.