Para cualquier \lambda Esto depende totalmente de sus datos. Pero como \lambda se hace más grande, el término de regularización empieza a dominar y sus datos se vuelven irrelevantes, de manera que g_1 se convierte en la función constante (primera derivada cero en todas partes) que mejor se ajusta a sus datos, y g_2 se convierte en la función afín (segunda derivada cero en todas partes) que mejor se ajusta a sus datos.
Sin conocimiento de su proceso de generación de datos, g_2 tendrá el mejor ajuste dentro de la muestra debido al grado de libertad adicional, mientras que g_1 generalizará mejor dado que el estimador es más parsimonioso, dando así un SSE de prueba más bajo.
Todo esto suponiendo que el argmin se toma sobre todas las funciones dos veces diferenciables en el dominio apropiado.