He estado disfrutando de la Introducción a la Estadística de Aprendizaje del libro de texto de la medida, y actualmente estoy trabajando mi camino a través del capítulo 6. Me doy cuenta de que estoy muy confundido por el proceso usado en el laboratorio 3 de este capítulo (página 256-258).
En primer lugar, que el uso de la pcr()
de la función de la cruz la opción de validación y todo el conjunto de datos de entrenamiento para calcular el número óptimo de componentes principales. Genial!!! Todo el conjunto (pensaba yo...)
pcr.fit=pcr(Salary∼., data=Hitters, scale=TRUE, validation ="CV")
Siguiente, "realizar la PCR en los datos de entrenamiento y evaluar su conjunto de pruebas de rendimiento":
pcr.fit=pcr(Salary∼., data=Hitters, subset=train, scale=TRUE, validation ="CV")
Estoy confundido porque pensé que la validación cruzada (que es lo que hicieron primero) es básicamente una versión mejor de hacer exactamente esto! Para hacer aún más confundido, que van a decir ellos que con el entrenamiento/prueba de un enfoque determinado, tienen la "más baja de la cruz-error de validación" 7 cuando se utilizan componentes. Parece que se está utilizando un conjunto de validación, junto con la validación cruzada?