Apreciaría cualquier respuesta sobre la caracterización/estimación del error de predicción en los datos futuros para el problema de la regresión no lineal. ¿En qué condiciones sería útil el error de validación cruzada o el error de prueba simple en un 20% de los datos disponibles seleccionados al azar para caracterizar el error de predicción en los nuevos datos (valor esperado, o máx./mín.)? He oído en alguna parte que el error de validación cruzada es una estimación optimista, ¿qué sería un límite superior pesimista (pero algo estrecho) en el error de predicción?
Respuestas
¿Demasiados anuncios?Si ha realizado la validación cruzada con mucho cuidado (hay muchas formas de cometer errores que pueden llevar a resultados demasiado optimistas), si los nuevos datos se extraen de la misma población que los datos de entrenamiento, el resultado de la validación cruzada debería ser más o menos correcto. En términos técnicos, la validación cruzada debería devolver una estimación insesgada del error, por lo que, aunque el resultado de la prueba pueda variar con respecto a las expectativas, debería tener la misma probabilidad de ser mejor que de ser peor.
Para una buena guía sobre la validación cruzada, véase el capítulo 7 de Elementos de aprendizaje estadístico . Un error común en la validación cruzada es asegurarse de que cualquier elección que se haga al desarrollar el modelo, como el ajuste de los parámetros, la decisión de qué variables son útiles e incluso qué algoritmo utilizar, debe evaluarse mediante la validación cruzada.
Sin embargo, la suposición clave es que el conjunto de pruebas procede de la misma población que el conjunto de entrenamiento. En muchas aplicaciones del mundo real de los modelos estadísticos, es probable que el sistema que se modela cambie con el tiempo, aunque sea de forma sutil, como los cambios en la forma de tomar las muestras. Cualquier cambio degradará el rendimiento del modelo. Por esta razón, en términos prácticos, el error de validación cruzada en el conjunto de entrenamiento estático podría ser optimista en comparación con el rendimiento de algún sistema en el mundo real. Los detalles dependerán totalmente de la naturaleza de los datos, por lo que no hay una única respuesta cuantitativa a tu pregunta.
Permítanme añadir a la excelente respuesta de Bogdanovist que
-
La validación cruzada es insesgada para lo que mide: la capacidad de predicción de los modelos "sustitutos" con respecto a los datos en cuestión ("extraídos de la misma población").
-
el sesgo pesimista, a menudo declarado, surge en situaciones en las que los modelos sustitutos son, por término medio, peores que el modelo real, normalmente debido al menor tamaño de la muestra de entrenamiento (incluso si se cumple la hipótesis de que se extrae de la misma población)
-
Este documento hace hincapié en los problemas de "extracción de la misma población", en particular la deriva en el tiempo: Esbensen y Geladi: Principles of Proper Validation: use and abuse of re-sampling for validation, Journal of Chemometrics, Volume 24, Issue 3-4, pages 168-187, March-April 2010