3 votos

La validación cruzada esquema utilizado en la Introducción al Aprendizaje Estadístico, Capítulo 6, 3 de Laboratorio

He estado disfrutando de la Introducción a la Estadística de Aprendizaje del libro de texto de la medida, y actualmente estoy trabajando mi camino a través del capítulo 6. Me doy cuenta de que estoy muy confundido por el proceso usado en el laboratorio 3 de este capítulo (página 256-258).

En primer lugar, que el uso de la pcr() de la función de la cruz la opción de validación y todo el conjunto de datos de entrenamiento para calcular el número óptimo de componentes principales. Genial!!! Todo el conjunto (pensaba yo...)

pcr.fit=pcr(Salary∼., data=Hitters, scale=TRUE, validation ="CV")

Siguiente, "realizar la PCR en los datos de entrenamiento y evaluar su conjunto de pruebas de rendimiento":

pcr.fit=pcr(Salary∼., data=Hitters, subset=train, scale=TRUE, validation ="CV")

Estoy confundido porque pensé que la validación cruzada (que es lo que hicieron primero) es básicamente una versión mejor de hacer exactamente esto! Para hacer aún más confundido, que van a decir ellos que con el entrenamiento/prueba de un enfoque determinado, tienen la "más baja de la cruz-error de validación" 7 cuando se utilizan componentes. Parece que se está utilizando un conjunto de validación, junto con la validación cruzada?

3voto

zowens Puntos 1417

Es, de hecho, no se explicó muy claramente en el texto, pero aquí es lo que creo que está pasando.

Primero, realizar la validación cruzada en todo el conjunto de datos. Dicen que "el más pequeño de validación cruzada de error se produce cuando se M=16 componentes se utilizan", pero también el comentario de que la diferencia entre los distintos valores de M es muy pequeña.

En segundo lugar, dividir el conjunto de datos introducción la capacitación y el conjunto de validación. Ellos ponen el conjunto de validación a un lado, y el uso de la validación cruzada en el conjunto de entrenamiento sólo para obtener el valor óptimo de M. Curiosamente, dicen que "el menor de validación cruzada de error se produce cuando se M=7 componente son utilizados" (no hay ningún comentario en ¿por qué es ahora mucho menor de 16). A continuación, utilizan el modelo de con M=7 y probar su funcionamiento en el conjunto de validación.

Parece que se está utilizando un conjunto de validación, junto con la validación cruzada?

Sí, exactamente! Esta es una decisión muy sensata, porque usted quiere medir el rendimiento de su algoritmo en un conjunto de datos que no se utilizó para la formación en cualquier forma, incluyendo hyper-parámetro de ajuste. Así que el uso conjunto de validación para medir el rendimiento y el conjunto de entrenamiento para construir el modelo, pero con el fin de elegir el valor de M usted necesita para hacer la validación cruzada en el conjunto de entrenamiento; es decir, el conjunto de entrenamiento se presenta, además, dividida en formación-capacitación y entrenamiento-prueba muchas veces.

Estoy confundido porque pensé que la validación cruzada (que es lo que hicieron primero) es básicamente una versión mejor de hacer exactamente esto

No exactamente. Al realizar una sola validación cruzada, se obtiene una buena estimación óptima de M, pero potencialmente a una mala estimación de la muestra de desempeño.

Hay dos formas de hacerlo correctamente:

  1. Tienen un conjunto de validación y hacer la validación cruzada en el conjunto de entrenamiento para afinar hyperparameters. (Eso es lo que hacen aquí.)

  2. Realizar anidada de validación cruzada. Buscar en nuestro sitio para "anidada de validación cruzada" para leer sobre ella. Por ejemplo:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X