7 votos

Estimación del error de predicción

Apreciaría cualquier respuesta sobre la caracterización/estimación del error de predicción en los datos futuros para el problema de la regresión no lineal. ¿En qué condiciones sería útil el error de validación cruzada o el error de prueba simple en un 20% de los datos disponibles seleccionados al azar para caracterizar el error de predicción en los nuevos datos (valor esperado, o máx./mín.)? He oído en alguna parte que el error de validación cruzada es una estimación optimista, ¿qué sería un límite superior pesimista (pero algo estrecho) en el error de predicción?

5voto

MattoxBeckman Puntos 827

Si ha realizado la validación cruzada con mucho cuidado (hay muchas formas de cometer errores que pueden llevar a resultados demasiado optimistas), si los nuevos datos se extraen de la misma población que los datos de entrenamiento, el resultado de la validación cruzada debería ser más o menos correcto. En términos técnicos, la validación cruzada debería devolver una estimación insesgada del error, por lo que, aunque el resultado de la prueba pueda variar con respecto a las expectativas, debería tener la misma probabilidad de ser mejor que de ser peor.

Para una buena guía sobre la validación cruzada, véase el capítulo 7 de Elementos de aprendizaje estadístico . Un error común en la validación cruzada es asegurarse de que cualquier elección que se haga al desarrollar el modelo, como el ajuste de los parámetros, la decisión de qué variables son útiles e incluso qué algoritmo utilizar, debe evaluarse mediante la validación cruzada.

Sin embargo, la suposición clave es que el conjunto de pruebas procede de la misma población que el conjunto de entrenamiento. En muchas aplicaciones del mundo real de los modelos estadísticos, es probable que el sistema que se modela cambie con el tiempo, aunque sea de forma sutil, como los cambios en la forma de tomar las muestras. Cualquier cambio degradará el rendimiento del modelo. Por esta razón, en términos prácticos, el error de validación cruzada en el conjunto de entrenamiento estático podría ser optimista en comparación con el rendimiento de algún sistema en el mundo real. Los detalles dependerán totalmente de la naturaleza de los datos, por lo que no hay una única respuesta cuantitativa a tu pregunta.

2voto

cbeleites Puntos 12461

Permítanme añadir a la excelente respuesta de Bogdanovist que

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X