TL,DR: Parece que, en contra de los consejos que se repiten a menudo, la validación cruzada con exclusión (LOO-CV), es decir, $K$ -CV doble con $K$ (el número de pliegues) igual a $N$ (el número de observaciones de entrenamiento) -- produce estimaciones del error de generalización que son el menos para cualquier $K$ no la más variable, asumiendo una cierta estabilidad en el modelo/algoritmo, en el conjunto de datos, o en ambos (no estoy seguro de cuál es el correcto, ya que no entiendo bien esta condición de estabilidad).
- ¿Puede alguien explicar claramente en qué consiste exactamente esta condición de estabilidad?
- ¿Es cierto que la regresión lineal es uno de esos algoritmos "estables", lo que implica que, en ese contexto, LOO-CV es estrictamente la mejor elección de CV en lo que respecta al sesgo y la varianza de las estimaciones del error de generalización?
La opinión generalizada es que la elección de $K$ en $K$ -El CV doble sigue un compromiso de sesgo-varianza, tales valores más bajos de $K$ (aproximación 2) conducen a estimaciones del error de generalización que tienen un sesgo más pesimista, pero una menor varianza, mientras que los valores más altos de $K$ (acercándose $N$ ) conducen a estimaciones menos sesgadas, pero con mayor varianza. La explicación convencional de este fenómeno de aumento de la varianza con $K$ se da quizás de forma más destacada en Los elementos del aprendizaje estadístico (Sección 7.10.1):
Con K=N, el estimador de validación cruzada es aproximadamente insesgado para el error de predicción verdadero (esperado), pero puede tener una alta varianza porque los N "conjuntos de entrenamiento" son muy similares entre sí.
La implicación es que el $N$ Los errores de validación están más correlacionados, por lo que su suma es más variable. Esta línea de razonamiento se ha repetido en muchas respuestas en este sitio (por ejemplo, aquí , aquí , aquí , aquí , aquí , aquí et aquí ), así como en varios blogs, etc. Pero prácticamente nunca se ofrece un análisis detallado, sino sólo una intuición o un breve esbozo de lo que podría ser un análisis.
Sin embargo, se pueden encontrar declaraciones contradictorias, normalmente citando una determinada condición de "estabilidad" que no entiendo muy bien. Por ejemplo, esta respuesta contradictoria cita un par de párrafos de un documento de 2015 que dice, entre otras cosas, "Para los modelos/procedimientos de modelización con baja inestabilidad La variabilidad más pequeña suele ser la de LOO" (el subrayado es nuestro). Este documento (sección 5.2) parece estar de acuerdo en que LOO representa la opción menos variable de $K$ siempre que el modelo/algoritmo sea "estable". Adoptando incluso otra postura sobre la cuestión, también hay este documento (Corolario 2), que dice "La varianza de $k$ la validación cruzada de pliegues [...] no depende de $k$ , citando de nuevo una determinada condición de "estabilidad".
La explicación de por qué la LOO puede ser la más variable $K$ -El doble CV es bastante intuitivo, pero hay una contraintuición. La estimación final del CV del error cuadrático medio (MSE) es la media de las estimaciones del MSE en cada pliegue. Por tanto, como $K$ aumenta hasta $N$ la estimación del CV es la media de un número creciente de variables aleatorias. Y sabemos que la varianza de una media disminuye con el número de variables que se promedian. Así que para que LOO sea la más variable $K$ -CV doble, tendría que ser cierto que el aumento de la varianza debido a la mayor correlación entre las estimaciones del MSE supera la disminución de la varianza debida al mayor número de pliegues que se promedian . Y no es en absoluto evidente que esto sea cierto.
Después de confundirme pensando en todo esto, decidí hacer una pequeña simulación para el caso de la regresión lineal. Simulé 10.000 conjuntos de datos con $N$ =50 y 3 predictores no correlacionados, estimando cada vez el error de generalización mediante $K$ -CV doblado con $K$ =2, 5, 10 o 50= $N$ . El código R está aquí. A continuación se muestran las medias y varianzas resultantes de las estimaciones del CV en los 10.000 conjuntos de datos (en unidades MSE):
k = 2 k = 5 k = 10 k = n = 50
mean 1.187 1.108 1.094 1.087
variance 0.094 0.058 0.053 0.051
Estos resultados muestran el patrón esperado de que los valores más altos de $K$ conducen a un sesgo menos pesimista, pero también parecen confirmar que la varianza de las estimaciones del CV es menor, no mayor, en el caso de la LOO.
Por lo tanto, parece que la regresión lineal es uno de los casos "estables" mencionados en los documentos anteriores, donde el aumento $K$ se asocia con una varianza decreciente en lugar de creciente en las estimaciones de CV. Pero lo que sigo sin entender es:
- ¿En qué consiste exactamente esta condición de "estabilidad"? ¿Se aplica a los modelos/algoritmos, a los conjuntos de datos o a ambos en cierta medida?
- ¿Existe una forma intuitiva de pensar en esta estabilidad?
- ¿Cuáles son otros ejemplos de modelos/algoritmos o conjuntos de datos estables e inestables?
- ¿Es relativamente seguro asumir que la mayoría de los modelos/algoritmos o conjuntos de datos son "estables" y, por tanto, que $K$ debe elegirse, por lo general, tan alto como sea posible desde el punto de vista informático?