Este es un tema complejo, pero he aquí algunas reflexiones.
El punto de la CV suele ser la selección del modelo, por ejemplo, la optimización de los hiperparámetros. Normalmente, cuando hablamos de varianza, nos referimos a la varianza de la predicción respecto al conjunto de entrenamiento que cambia, no wrt las estimaciones del error para un modelo dado. Empíricamente, parece que LOOCV no es ideal para esto. (Además, en la práctica es demasiado costoso para los aprendices profundos).
La intuición es la siguiente: dado un modelo, evalúelo con LOOCV. Obtendrá un conjunto de estimaciones de error que puede promediar. Estas estimaciones pueden ser muy cercanas entre sí (es decir, baja varianza entre pliegues). Ahora cambie completamente el conjunto de datos, y hágalo de nuevo. (por ejemplo, para el conjunto de datos $i$ , $E_i = \frac{1}{n}\sum_j e_{ij}$ ). La idea es que la varianza del $E_i$ será alta para LOOCV, es decir $\mathbb{V}[E]$ será alta, porque los datos de entrenamiento son los mismos cada vez (es decir $e_{ij}$ están muy correlacionados para los $i$ , varianza decreciente sobre la estimación de $E_i$ pero aumentándola para un estimador sobre los conjuntos de datos por ejemplo, escrito $E=\frac{1}{|D|}\sum_d E_d$ para un conjunto de datos $D$ ). Cuando se utiliza, por ejemplo, el CV de dos pliegues, se obtiene una buena estimación del error de generalización porque los dos modelos probados no tienen ninguna relación entre sí en términos de datos de entrenamiento (por lo tanto, tienen una alta "varianza" entre los pliegues, ya que sus resultados serán diferentes, pero una baja varianza entre los conjuntos de datos, ya que están siendo entrenados en datos no correlacionados; juntos son más representativos del error de generalización).
Así, utilizando LOOCV, obtenemos un conjunto de estimaciones $E_i$ que son estables en todos los pliegues (debido a la alta correlación de la muestra de entrenamiento entre los modelos), pero inestables en todos los conjuntos de datos; por otro lado, el uso de, por ejemplo, el CV de 2 pliegues da inestabilidad en todos los pliegues (ya que los datos vistos por el modelo en cada caso son independientes), pero menos varianza en todos los conjuntos de datos, ya que son mejores estimaciones del verdadero error de generalización.
Tenga en cuenta también que el CV con grandes conjuntos de entrenamiento (como en LOOCV), entonces el sobreajuste a los datos es mucho más fácil que para, por ejemplo, el CV de 2 veces, ya que (si está comparando modelos) el modelo que se ajusta a las idiosincrasias de los conjuntos de datos lo hará mejor.
Obsérvese que esto es similar al clásico equilibrio entre sesgo y varianza, que dice que los modelos más débiles pueden estimarse con mayor precisión en términos de rendimiento, pero no pueden ajustarse completamente a los datos y, por lo tanto, son un estimador sesgado de la función objetivo, mientras que los modelos más fuertes son más propensos al sobreajuste y, por lo tanto, tienen menos sesgo para llegar a la respuesta correcta pero más varianza a medida que cambia el conjunto de entrenamiento ya que se ajustarán al ruido.
En cuanto a la estimación en sí, tienes razón en que no está claro cuál de los efectos se equilibra: la alta correlación de los datos de entrenamiento frente al número de muestras frente al hecho de que cada "conjunto de pruebas" sólo tiene una muestra (y por tanto es un estimador de alta varianza también). Para un único conjunto de datos, la varianza del estimador a través de los pliegues será menor para LOOCV, pero creo que eso no es lo que nos interesa.
Sólo para enlazar con algunos buenos posts sobre este tema: [1] , [2] , [3] , [4] , [5] .