39 votos

¿Por qué utilizar la regularización en la regresión polinómica en lugar de bajar el grado?

Cuando se hace una regresión, por ejemplo, dos hiperparámetros a elegir suelen ser la capacidad de la función (por ejemplo, el mayor exponente de un polinomio), y la cantidad de regularización. Lo que me confunde es ¿por qué no elegir una función de baja capacidad, y luego ignorar cualquier regularización? De este modo, no se ajustará en exceso. Si tengo una función de alta capacidad junto con la regularización, ¿no es lo mismo que tener una función de baja capacidad y sin regularización?

70voto

eldering Puntos 3814

Recientemente he creado una pequeña aplicación en el navegador que puedes utilizar para jugar con estas ideas: Suavizadores de dispersión (*).

Aquí hay algunos datos que inventé, con un ajuste polinómico de bajo grado

Quadratic Fit

Está claro que el polinomio cuadrático no es lo suficientemente flexible para dar un buen ajuste a los datos. Tenemos regiones de muy alto sesgo, entre $0.6$ y $0.85$ todos los datos están por debajo del ajuste, y después $0.85$ todos los datos están por encima de la curva.

Para librarnos del sesgo, podemos aumentar el grado de la curva a tres, pero el problema sigue siendo que la curva cúbica sigue siendo demasiado rígida

Cubic Fit

Así que seguimos aumentando el grado, pero ahora incurrimos en el problema contrario

Ten Degree Fit

Esta curva sigue los datos también y tiende a volar en direcciones que no se corresponden con los patrones generales de los datos. Aquí es donde entra en juego la regularización. Con la misma curva de grado (diez) y alguna regularización bien elegida

Degree Ten Regularizaton

Nos queda muy bien.

Vale la pena centrarse un poco en un aspecto de bien elegido arriba. Cuando se ajustan polinomios a los datos, se dispone de un conjunto discreto de opciones de grado. Si una curva de grado tres está infraajustada y una curva de grado cuatro está sobreajustada, no hay ningún lugar donde ir en el medio. La regularización resuelve este problema, ya que ofrece un rango continuo de parámetros de complejidad con los que jugar.

como afirmar que "¡se consigue un buen ajuste!". Para mí todos parecen iguales, es decir, no concluyentes. ¿Qué razonamiento utilizas para decidir qué es un buen y un mal ajuste?

Un punto justo.

La suposición que hago aquí es que un modelo bien ajustado no debería tener un patrón discernible en los residuos. Ahora, no estoy trazando los residuos, por lo que tienes que hacer un poco de trabajo al mirar las imágenes, pero usted debe ser capaz de utilizar su imaginación.

En la primera imagen, con el ajuste de la curva cuadrática a los datos, puedo ver el siguiente patrón en los residuos

  • De 0,0 a 0,3 se sitúan más o menos uniformemente por encima y por debajo de la curva.
  • De 0,3 a aproximadamente 0,55 todo los puntos de datos están por encima de la curva.
  • De 0,55 a aproximadamente 0,85 todo los puntos de datos están por debajo de la curva.
  • A partir de 0,85, todos están de nuevo por encima de la curva.

Yo me referiría a estos comportamientos como sesgo local En este caso, hay regiones en las que la curva no se aproxima bien a la media condicional de los datos.

Compara esto con el último ajuste, con la spline cúbica. No puedo distinguir ninguna región en la que el ajuste no parezca pasar precisamente por el centro de masa de los puntos de datos. Esto es en general (aunque de forma imprecisa) lo que entiendo por un buen ajuste.


Nota final : Tome todo esto como ilustración. En la práctica, no recomiendo el uso de expansiones de bases polinómicas para cualquier grado superior a $2$ . Sus problemas están bien discutidos en otros lugares, pero, por ejemplo:

  • Su comportamiento en los límites de sus datos puede ser muy caótico, incluso con regularización.
  • No son local en cualquier sentido. Cambiar los datos en un lugar puede afectar significativamente al ajuste en un lugar muy diferente.

Yo en cambio, en una situación como la que describes, recomiendo usar splines cúbicos naturales junto con la regularización, que ofrecen el mejor compromiso entre flexibilidad y estabilidad. Puedes comprobarlo tú mismo ajustando algunas splines en la aplicación.

Natural Cubic Spline

(*) Creo que esto sólo funciona en chrome y firefox debido a mi uso de algunas características modernas de javascript (y la pereza general para arreglarlo en safari y ie). El código fuente es aquí Si está interesado.

5 votos

Gracias, y tu herramienta de navegación es impresionante: ¡me encantan las pequeñas demostraciones interactivas como esa!

0 votos

@Karnivaurus Gracias, me alegro de haber podido ayudar. La herramienta fue divertida de construir, me gusta escribir javascript : )

0 votos

Realmente me cuesta entender cómo se puede afirmar que "¡se consigue un buen ajuste!". Para mí todos parecen iguales, es decir, inconclusos. ¿Qué razonamiento utilizas para decidir qué es un buen y un mal ajuste? PS. Una aplicación impresionante. Sugerencia: un botón para importar y exportar los puntos de datos en csv, para poder pegar mis datos allí ;)

5voto

avid Puntos 161

No, no es lo mismo. Compare, por ejemplo, un polinomio de segundo orden sin regularización con un polinomio de cuarto orden con ella. Este último puede plantear coeficientes grandes para las potencias tercera y cuarta siempre que esto parezca aumentar la precisión predictiva, según el procedimiento que se utilice para elegir el tamaño de la penalización para el procedimiento de regularización (probablemente la validación cruzada). Esto demuestra que una de las ventajas de la regularización es que permite ajustar automáticamente la complejidad del modelo para lograr un equilibrio entre el sobreajuste y el infraajuste.

0 votos

Pero si se añade una regularización a un polinomio de cuarto orden, esto impide que utilice toda su expresividad. Así que con suficiente regularización, la expresividad se reducirá hasta el punto de ser tan expresiva como un polinomio de segundo orden. ¿No?

1 votos

Tal vez si se fija el tamaño de la penalización de antemano, pero ¿qué sentido tiene eso? El tamaño de la penalización debería elegirse en función de los datos.

4voto

mathreadler Puntos 141

En el caso de los polinomios, incluso pequeños cambios en los coeficientes pueden suponer una diferencia para los exponentes más altos.

$L_2$ La regularización ( mínimos cuadrados ) suele propiciar muchos coeficientes pequeños pero ninguno exactamente 0 y por tanto los monomios de orden superior son capaces de marcar la diferencia.

3voto

David Puntos 41

Todas las respuestas son geniales y tengo simulaciones similares con Matt para dar otro ejemplo que muestre por qué el modelo complejo con regularización suele ser mejor que el modelo simple .

Hice una analogía para tener una explicación intuitiva.

  • Caso 1 sólo tienes un estudiante de secundaria con conocimientos limitados (un modelo simple sin regularización)
  • En el caso 2, tienes un estudiante graduado pero le restringes a usar sólo los conocimientos de la escuela secundaria para resolver los problemas. (modelo complejo con regularización)

Si dos personas resuelven el mismo problema, por lo general los estudiantes de posgrado trabajarían mejor la solución, porque la experiencia y los conocimientos.

La figura 1 muestra 4 adaptaciones a los mismos datos. Los 4 ajustes son la línea, la parábola, el modelo de tercer orden y el modelo de quinto orden. Se puede observar que el modelo de 5º orden puede tener un problema de sobreajuste.

enter image description here

Por otro lado, en el segundo experimento, utilizaremos el modelo de 5º orden con diferente nivel de regularización. Compara este último con el modelo de segundo orden. (los dos modelos están resaltados) encontrará que el último es similar (aproximadamente tienen la misma complejidad del modelo) a la parábola, pero ligeramente más flexible a los datos bien.

enter image description here

1 votos

"tienen aproximadamente la misma complejidad de modelo"... esa es visualmente la comparación "obvia", ¿hay una forma matemática de medirla?

1voto

user1816847 Puntos 111

Complejidad del modelo (flexibilidad del modelo) consiste en representar las estructuras ocultas en los datos. Por poner un ejemplo de ajuste de curvas polinómicas, un polinomio de orden superior (por ejemplo, parábola/cuadrático) proporciona más flexibilidad para representar las estructuras ocultas en comparación con uno de orden inferior (por ejemplo, línea/lineal) si efectivamente existe una estructura parabólica oculta (que encontramos utilizando EDA).

Entonces, ¿dónde está el Regularización ¿entrar?

Las observaciones/resultados de un experimento aleatorio son ruidosas (suponemos que el ruido gaussiano es una buena aproximación). Cuando utilizamos un polinomio de orden superior, cuanto más alto es el polinomio, más puntos de entrenamiento se encuentran exactamente en la curva ajustada. Sin embargo, esto da lugar a una mala generalización y los resultados del conjunto de pruebas son decepcionantes.

Cuando examinamos los coeficientes de los polinomios de orden superior, tienen valores muy altos. Lo que ha ocurrido es que, aunque el modelo es flexible, se ha ajustado al ruido gaussiano, hasta el punto de que la curva ajustada oscila rápidamente cerca de los extremos de los intervalos entre los puntos de datos. Así, durante las pruebas, un ligero off-x se traduce en un gran off-y.

La regularización ayuda a mantener estos coeficientes en valores bajos, por lo que la curva es suave. Ahora tenemos menos puntos de entrenamiento en la curva, más error de entrenamiento, pero menos error de prueba, es decir, mejor generalización (menos Sobreajuste ).

La elección entre el polinomio de orden superior y la regularización es no la de excluir a uno por otro pero la de encontrar un equilibrio entre lo alto que puede ser el polinomio sin perder demasiado en la generalización .

Cuando hablamos del orden del polinomio y de la regularización en el contexto de la generalización/sin sobreajuste, hay una tercera palanca que puede reducir el sobreajuste causado por un polinomio de orden superior. Esta palanca es ' tamaño de los datos '. Más datos ayudan a acomodar un polinomio de orden superior.

Referencias: 1 Reconocimiento de patrones y aprendizaje automático - Christopher Bishop

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X