138 votos

Validación cruzada anidado para selección de modelo

¿Cómo se puede utilizar anidada de la validación cruzada para la selección de modelo?

Por lo que he leído en línea, anidada CV funciona de la siguiente manera:

  • No es el interior de CV bucle, donde nos puede llevar a cabo una cuadrícula de búsqueda (por ejemplo, correr K-fold para cada modelo disponible, por ejemplo, la combinación de hyperparameters/características)
  • No es el exterior CV bucle, donde se mide el rendimiento de la modelo que ganó en el pliegue interno, en externo independiente veces.

Al final de este proceso nos encontramos con $K$ modelos ($K$ el número de pliegues en el bucle externo). Estos modelos son los que ganó en la red de búsqueda en el interior de la CV, y que son probablemente diferentes (por ejemplo, SVMs con diferentes kernels, capacitados, con posibilidad de diferentes características, dependiendo de la cuadrícula de búsqueda).

¿Cómo elegir un modelo de este resultado? Me parece que seleccionar el mejor modelo de los $K$ ganar modelos no sería una comparación justa, ya que cada modelo fue entrenado y probado en diferentes partes del conjunto de datos.

Entonces, ¿cómo puedo utilizar anidada CV para el modelo de selección?

También he leído los hilos discutiendo cómo anidada de selección de modelo es útil para analizar el proceso de aprendizaje. ¿Qué tipos de análisis /cheques puedo hacer con los resultados que obtengo desde el exterior K pliegues?

114voto

cbeleites Puntos 12461

¿Cómo elegir un modelo de este [el exterior de la validación cruzada] salida?

Respuesta corta: no.

Tratar el interior de la validación cruzada, como parte del ajuste del modelo de procedimiento. Eso significa que el accesorio incluido el acondicionamiento de la hiper-parámetros (esto es, donde el interior de la validación cruzada oculta) es igual que cualquier otro modelo de esitmation rutina.
El exterior de la validación cruzada estima que el rendimiento de este ajuste del modelo de enfoque. Para que el uso de la costumbre supuestos

  • el $k$ exterior sustituto de los modelos son equivalentes a la "real" modelo construido por model.fitting.procedure con todos los datos.
  • O, en el caso 1. se rompe (pesimista sesgo de remuestreo de validación), al menos el $k$ exterior sustituto modelos son equivalentes entre sí.
    Esto le permite a la piscina (promedio) de los resultados de la prueba. También significa que usted no necesita elegir entre ellos, como se supone que ellos son, básicamente, la misma. La ruptura de este segundo, el supuesto más débil es el modelo de la inestabilidad.

Qué no elegir el aparentemente mejor de la $k$ sustituto de los modelos que suelen ser sólo de "cosecha" de las pruebas de la incertidumbre y la lleva a un sesgo optimista.

Entonces, ¿cómo puedo utilizar anidada CV para el modelo de selección?

El interior de la CV que hace la selección.

Me parece que seleccionar el mejor modelo de los K ganar modelos no sería una comparación justa, ya que cada modelo fue entrenado y probado en diferentes partes del conjunto de datos.

Tienes razón en que no es buena idea escoger una de las $k$ sustituto de los modelos. Pero usted está equivocado acerca de la razón. Verdadera razón: ver arriba. El hecho de que ellos no están entrenados y probados en el mismo los datos no "herir" aquí.

  • No tener los mismos datos de prueba: como usted desea reclamar después que los resultados de la prueba generalizar nunca visto de los datos, esto puede hacer una diferencia.
  • No tener los mismos datos de entrenamiento:
    • si los modelos son estables, esto no lo hace una diferencia: Estable aquí significa que el modelo no cambia (mucho) si los datos de entrenamiento es "perturbado" por la sustitución de un par de casos por otros casos.
    • si los modelos no son estables, tres consideraciones son importantes:
      1. en realidad se puede medir si, y en qué medida este es el caso, por el uso reiterado/repetido $k$-fold cross validation. Que le permite comparar la validación cruzada de los resultados para el mismo caso que se predijo por los diferentes modelos ligeramente diferentes de datos de entrenamiento.
      2. Si los modelos no son estables, la varianza observada en los resultados de la prueba de la $k$-fold cross validation aumenta: no sólo la varianza debida al hecho de que sólo un número finito de casos de prueba en total, pero tiene más varianza debido a la inestabilidad de los modelos (parte de la varianza en las habilidades de predicción).
      3. Si la inestabilidad es un problema real, que no se puede extrapolar también a la actuación de la "real" del modelo.

Lo que me lleva a la última pregunta:

¿Qué tipos de análisis /cheques puedo hacer con los resultados que obtengo desde el exterior K pliegues?

  • verificación de la estabilidad de las predicciones (uso reiterado/repetido de validación cruzada)
  • verificación de la estabilidad/variación de la optimización de hyper-parámetros.
    Para una cosa, salvajemente dispersión de hyper-parámetros puede indicar que el interior de la optimización de no trabajo. Por otro lado, esto puede permitir que usted para decidir sobre la hyperparameters sin el costoso paso de optimización en situaciones similares en el futuro. Con costosos no me refiero a los recursos computacionales, sino el hecho de que este "costos" de la información que puede ser mejor utilizado para la estimación de la "normal" de los parámetros del modelo.

  • comprobar la diferencia entre el interior y exterior de la estimación del modelo elegido. Si hay una gran diferencia (el ser interior muy optimista), hay un riesgo de que el interior de optimización no funciona bien a causa de sobreajuste.

42voto

John Richardson Puntos 1197

Además cebeleites excelente respuesta (+1), la idea básica es que la validación cruzada se utiliza para evaluar el rendimiento de un método para el ajuste de un modelo, no del modelo en sí. Si usted necesita para realizar la selección del modelo, entonces usted necesita para realizar de forma independiente en cada pliegue de la cruz-procedimiento de validación, ya que es una parte integral del modelo de procedimiento de ajuste. Si utiliza una validación cruzada modelo basado en el procedimiento de selección, esto significa que usted termina con anidada de validación cruzada. Es útil tener en cuenta la finalidad de cada una de validación cruzada - uno es para la selección del modelo, y la otra para el rendimiento de la estimación.

Me gustaría hacer mi último modelo de ajuste del modelo (incluyendo la selección de modelo) para todo el conjunto de datos, después de usar anidada de validación cruzada para tener una idea del rendimiento que razonablemente podría esperar de ese modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X