¿Qué es realmente la regularización?
Tal vez esté confundiendo la regularización L1/L2 (también conocida como regresión Lasso/ridge, regularización de Tikhonov...), el tipo más omnipresente, como el único tipo de regularización
La regularización es en realidad cualquier cosa que evite el sobreajuste que puedes hacer a un algoritmo de aprendizaje [ Wikipedia ]. El abandono, la normalización por lotes, la detención temprana, el ensamblaje de modelos, la selección de características y muchas de las técnicas que otros han señalado aquí... ¡son sólo diferentes técnicas de regularización!
Compensación de sesgo-varianza
Tal vez, pensar en esta cuestión en términos de la compensación de sesgo-varianza un concepto fundamental del aprendizaje automático, podría aclarar en gran medida sus ideas.
Si nuestro objetivo es la precisión de la predicción, queremos reducir el error esperado de un aprendiz supervisado $\hat{f}$ que puede descomponerse en sesgo, varianza y error irreducible:
$$ {\displaystyle \operatorname {E} _{D}{\Big [}{\big (}y-{\hat {f}}(x;D){\big )}^{2}{\Big ]}={\Big (}\operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\Big )}^{2}+\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}+\sigma ^{2}} $$
La regularización penaliza los modelos complejos, para tratar de reducir la varianza del estimador (más de lo que aumenta el sesgo), para reducir en última instancia el error esperado. Desde el punto de vista filosófico, esto se asemeja a la navaja de Occam, en la que introducimos un sesgo inductivo para la simplicidad bajo el supuesto de que "lo más simple es lo mejor".
Normalmente queremos regularizar
Desde un punto de vista bayesiano, también podemos mostrar que la inclusión de la regularización L1/L2 significa colocar una prioridad y obtener una estimación MAP, en lugar de una estimación MLE ( ver aquí ).
La sobreadaptación se produce simplemente cuando el modelo no es capaz de generalizar bien a los datos reales de interés (conjunto de datos "de prueba" o "de producción"), normalmente porque se ha ajustado a los datos de entrenamiento demasiado bien . Siempre queremos evitar esto con alguna forma de regularización.
3 votos
"Grandes conjuntos de datos" puede significar muchas observaciones, muchas variables o ambas cosas, y la respuesta puede depender del número de observaciones y variables.
0 votos
¿Por qué no utilizar la regularización de normas? En el caso de las redes neuronales, hay un abandono
4 votos
La ventaja de la regularización es que es computacionalmente barata. Los métodos de ensamblaje, como el bagging y el boosting (etc.), combinados con métodos de validación cruzada para el diagnóstico del modelo son una buena alternativa, pero será una solución mucho más costosa.
1 votos
Esto puede ser de interés: stats.stackexchange.com/a/161592/40604
1 votos
Para añadir al comentario de Digio: la regularización es barata en comparación con el bagging/boosting, pero sigue siendo cara en comparación con la alternativa de "no regularización" (véase, por ejemplo, este post de Ben Recht habla de cómo la regularización dificulta el aprendizaje profundo ). Si tiene un gran número de muestras, ninguna regularización puede funcionar bien por mucho menos. El modelo todavía puede generalizar bien como @hxd1001 señala )