k-fold crossvalidation: ¿cómo va el MSE con k?

Question

k-fold crossvalidation: ¿cómo va el MSE con k?

Preguntado el 10 de Octubre, 2017: Cuando se hizo la pregunta
3117 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy tratando de tener una intuición sobre la elección de la "k" correcta para la validación K-Fold. ¿Es correcto lo siguiente?

La media de los MSEs de OOS debería generalmente disminuir a medida que aumenta k . Porque, una "k" más grande significa que los conjuntos de entrenamiento son más grandes, por lo que tenemos más datos para ajustar el modelo (suponiendo que estamos usando el modelo "correcto").

La variación de los MSEs de OOS debería generalmente aumentar a medida que aumenta k . Una "k" mayor significa tener más conjuntos de validación. Por lo tanto, tendremos más MSE individuales para promediar. Como los MSE de muchos pliegues pequeños serán más dispersos que los MSE de pocos pliegues grandes, la varianza será mayor.

¡Gracias! :)

Preguntado el 10 de Octubre, 2017 por stackount

Answer 1

1 Respuestas

Answer 2

3voto

Matryoshka Puntos 53

Yo diría que sus afirmaciones, y el diagrama, son generalizaciones incorrectas y puede ser engañoso.

Definiciones y terminología

Basándose en la terminología y las definiciones de Validación cruzada e intervalo de confianza del error verdadero podemos utilizar un $L_2$ función de pérdida y definir el estimador de validación cruzada $CV$ de la siguiente manera:

El conjunto de datos $D$ se divide en trozos en $K$ subconjuntos disjuntos del mismo tamaño con $m = n / K$ . Escribamos $T_k$ para el $k$ -aquel bloque y $D_k$ para el conjunto de entrenamiento obtenido mediante la eliminación de los elementos en $T_k$ de $D$ .

El estimador de validación cruzada es la media de los errores del bloque de prueba $T_k$ obtenido al entrenar el algoritmo $A$ en $D_k$ $$ CV(D) = \frac{1}{K} \sum_{k=1}^K \frac{1}{m} \sum_{z_i \in T_k} L(A(D_k), z_i)$$

Sesgo del estimador CV

El efecto de $K$ sobre el sesgo de $CV$ depende del forma de la curva de aprendizaje :

Si la curva de aprendizaje tiene una pendiente considerable con un tamaño de conjunto de entrenamiento determinado, el aumento de $K$ tiende a reducir el sesgo, ya que el algoritmo se entrenará con un conjunto de datos mayor que mejorará su sesgo.
Si la curva de aprendizaje es plana en el tamaño del conjunto de entrenamiento dado, entonces el aumento de $K$ tienden a no impactar el sesgo significativamente

Fuentes y lecturas adicionales

"Elementos de aprendizaje estadístico" capítulo 7.10, página 243.
Número óptimo de pliegues en $K$ -La validación cruzada doble: ¿es siempre la mejor opción el CV con exclusión?

Varianza del estimador CV

El impacto de $K$ sobre la varianza del estimador CV es aún más sutil, ya que entran en juego varios efectos diferentes y opuestos.

Si la validación cruzada promediara estimaciones independientes En el caso de los modelos con CV de exclusión, se debería ver una varianza relativamente menor entre los modelos, ya que sólo estamos desplazando un punto de datos a través de los pliegues y, por lo tanto, los conjuntos de entrenamiento entre los pliegues se superponen sustancialmente.
Esto no es cierto cuando los conjuntos de entrenamiento están muy correlacionados : La correlación puede aumentar con K y este aumento es responsable del aumento global de la varianza en el segundo escenario.
En caso de inestabilidad del algoritmo El CV con exclusión puede ser ciego a las inestabilidades que existen, pero no puede ser desencadenado por el cambio de un solo punto en los datos de entrenamiento, lo que hace que sea muy variable a la realización del conjunto de entrenamiento.

Ejemplo extraído del Yves Grandvalet y Yoshua Bengio (2004) papel

A la izquierda un experimento sin valores atípicos, la varianza cae con $K$ A la derecha, un experimento con valores atípicos, la varianza aumenta con $K$

Fuentes y lecturas adicionales

Respondido el 5 de Septiembre, 2018 por Matryoshka (53 Puntos )

k-fold crossvalidation: ¿cómo va el MSE con k?

Respuesta

Definiciones y terminología

Sesgo del estimador CV

Fuentes y lecturas adicionales

Varianza del estimador CV

Ejemplo extraído del Yves Grandvalet y Yoshua Bengio (2004) papel

Fuentes y lecturas adicionales

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

k-fold crossvalidation: ¿cómo va el MSE con k?

Respuesta

Definiciones y terminología

Sesgo del estimador CV

Fuentes y lecturas adicionales

Varianza del estimador CV

Ejemplo extraído del Yves Grandvalet y Yoshua Bengio (2004) papel

Fuentes y lecturas adicionales

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: