20 votos

Evitar el sobreajuste en la regresión: alternativas a la regularización

La regularización en la regresión (lineal, logística...) es la forma más popular de reducir el sobreajuste.

Cuando el objetivo es la precisión de la predicción (no la explicación), ¿hay alguna buena alternativa a la regularización, especialmente adecuada para grandes conjuntos de datos (mi/millones de observaciones y millones de características)?

3 votos

"Grandes conjuntos de datos" puede significar muchas observaciones, muchas variables o ambas cosas, y la respuesta puede depender del número de observaciones y variables.

0 votos

¿Por qué no utilizar la regularización de normas? En el caso de las redes neuronales, hay un abandono

4 votos

La ventaja de la regularización es que es computacionalmente barata. Los métodos de ensamblaje, como el bagging y el boosting (etc.), combinados con métodos de validación cruzada para el diagnóstico del modelo son una buena alternativa, pero será una solución mucho más costosa.

2voto

hexium Puntos 640

¿Qué es realmente la regularización?

Tal vez esté confundiendo la regularización L1/L2 (también conocida como regresión Lasso/ridge, regularización de Tikhonov...), el tipo más omnipresente, como el único tipo de regularización

La regularización es en realidad cualquier cosa que evite el sobreajuste que puedes hacer a un algoritmo de aprendizaje [ Wikipedia ]. El abandono, la normalización por lotes, la detención temprana, el ensamblaje de modelos, la selección de características y muchas de las técnicas que otros han señalado aquí... ¡son sólo diferentes técnicas de regularización!

Spiderman meme: L1/L2, ensembling, early stopping are all regularization.

Compensación de sesgo-varianza

Tal vez, pensar en esta cuestión en términos de la compensación de sesgo-varianza un concepto fundamental del aprendizaje automático, podría aclarar en gran medida sus ideas.

Si nuestro objetivo es la precisión de la predicción, queremos reducir el error esperado de un aprendiz supervisado $\hat{f}$ que puede descomponerse en sesgo, varianza y error irreducible:

$$ {\displaystyle \operatorname {E} _{D}{\Big [}{\big (}y-{\hat {f}}(x;D){\big )}^{2}{\Big ]}={\Big (}\operatorname {Bias} _{D}{\big [}{\hat {f}}(x;D){\big ]}{\Big )}^{2}+\operatorname {Var} _{D}{\big [}{\hat {f}}(x;D){\big ]}+\sigma ^{2}} $$

La regularización penaliza los modelos complejos, para tratar de reducir la varianza del estimador (más de lo que aumenta el sesgo), para reducir en última instancia el error esperado. Desde el punto de vista filosófico, esto se asemeja a la navaja de Occam, en la que introducimos un sesgo inductivo para la simplicidad bajo el supuesto de que "lo más simple es lo mejor".

Normalmente queremos regularizar

Desde un punto de vista bayesiano, también podemos mostrar que la inclusión de la regularización L1/L2 significa colocar una prioridad y obtener una estimación MAP, en lugar de una estimación MLE ( ver aquí ).

La sobreadaptación se produce simplemente cuando el modelo no es capaz de generalizar bien a los datos reales de interés (conjunto de datos "de prueba" o "de producción"), normalmente porque se ha ajustado a los datos de entrenamiento demasiado bien . Siempre queremos evitar esto con alguna forma de regularización.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X