Me topé con el siguiente documento Reconciliando la práctica moderna de aprendizaje automático y el trade-off sesgo-varianza y no comprendo completamente cómo justifican la curva de riesgo de doble descenso (ver abajo), descrita en su documento.
En la introducción dicen:
Al considerar clases de funciones más grandes, que contienen más candidatos a predictores compatibles con los datos, podemos encontrar funciones interpolantes que tienen una norma más pequeña y por lo tanto son "más simples". Así que aumentar la capacidad de la clase de funciones mejora el rendimiento de los clasificadores.
A partir de esto puedo entender por qué el riesgo de prueba disminuye en función de la capacidad de la clase de funciones.
Lo que no entiendo entonces con esta justificación, sin embargo, es por qué el riesgo de prueba aumenta hasta el punto de interpolación y luego vuelve a disminuir. ¿Y por qué es exactamente en el punto de interpolación que el número de puntos de datos $n$ es igual al parámetro de función $N$?
Sería genial si alguien pudiera ayudarme aquí.