31 votos

Refuerzo: ¿por qué la tasa de aprendizaje se llama parámetro de regularización?

El ritmo de aprendizaje parámetro ( $\nu \in [0,1]$ ) en Gradient Boosting reduce la contribución de cada nuevo modelo base -típicamente un árbol poco profundo- que se añade en la serie. Se ha demostrado que aumenta drásticamente la precisión del conjunto de pruebas, lo cual es comprensible, ya que con pasos más pequeños se puede alcanzar el mínimo de la función de pérdida con mayor precisión.

No entiendo por qué el índice de aprendizaje se considera un parámetro de regularización ? Citando el Elementos de aprendizaje estadístico , sección 10.12.1, p.364:

El control del número de árboles no es el único posible estrategia de regularización. Al igual que con la regresión de crestas y las redes neuronales también se pueden emplear técnicas de contracción. Los valores más pequeños de $\nu$ (más contracción) dan lugar a un mayor riesgo de formación para el mismo número de iteraciones $M$ . Por lo tanto, tanto $\nu$ y $M$ control del riesgo de predicción en los datos de entrenamiento.

Regularización significa "forma de evitar el sobreajuste", por lo que está claro que el número de iteraciones $M$ es crucial en ese sentido (un $M$ que es demasiado alta conduce a un sobreajuste). Pero:

Los valores más pequeños de $\nu$ (mayor contracción) dan lugar a una mayor formación riesgo para el mismo número de iteraciones $M$ .

sólo significa que con tasas de aprendizaje bajas, se necesitan más iteraciones para lograr la misma precisión en el conjunto de entrenamiento. Entonces, ¿cómo se relaciona esto con el sobreajuste?

36voto

David Puntos 41

Supongamos que se intenta minimizar la función objetivo mediante el número de iteraciones. Y el valor actual es $100.0$ . En un conjunto de datos dado, no hay "errores irreducibles" y se puede minimizar la pérdida a $0.0$ para sus datos de entrenamiento. Ahora tienes dos maneras de hacerlo.

  • La primera forma es "gran tasa de aprendizaje" y pocas iteraciones. Supongamos que se puede reducir la pérdida en $10.0$ en cada iteración, entonces, en $10$ iteraciones, se puede reducir la pérdida a $0.0$ .

  • La segunda forma sería "ritmo de aprendizaje lento" pero con más iteraciones. Supongamos que se puede reducir la pérdida en $1.0$ en cada iteración y necesitas $100$ iteración para tener 0,0 de pérdida en sus datos de entrenamiento.

Ahora piense en esto: ¿son los dos enfoques iguales? y si no es así, ¿cuál es mejor en contexto de optimización y contexto de aprendizaje automático ?

En literatura de optimización Los dos enfoques son los mismos. Como ambos convergen a la solución óptima . Por otra parte, en aprendizaje automático No son iguales. Porque en la mayoría de los casos no hacemos la pérdida en el conjunto de entrenamiento para $0$ lo que provocará un sobreajuste.

Podemos pensar en el primer enfoque como una "búsqueda de cuadrícula de nivel grueso", y en el segundo como una "búsqueda de cuadrícula de nivel fino". El segundo enfoque suele funcionar mejor, pero necesita más potencia de cálculo para más iteraciones.

Para evitar el sobreajuste, podemos hacer diferentes cosas, la primera forma sería restringir el número de iteraciones, supongamos que estamos utilizando el primer enfoque, limitamos el número de iteraciones a 5. Al final, la pérdida para los datos de entrenamiento es $50$ . (BTW, esto sería muy extraño desde el optimización punto de vista, lo que significa que podemos mejorar en el futuro nuestra solución / no es convergente, pero decidimos no hacerlo. En la optimización, normalmente añadimos explícitamente restricciones o términos de penalización a la función objetivo, pero no solemos limitar el número de iteraciones).

Por otro lado, también podemos utilizar el segundo enfoque: si establecemos una tasa de aprendizaje pequeña, por ejemplo, reducimos $0.1$ pérdida para cada iteración, aunque tengamos un gran número de iteraciones digamos $500$ iteraciones, todavía no hemos minimizado la pérdida para $0.0$ .

Por eso, una tasa de aprendizaje pequeña equivale a "más regularizaciones".

Este es un ejemplo de la utilización de diferentes tasas de aprendizaje en un dato experimental utilizando xgboost . Por favor, compruebe los dos siguientes enlaces para ver lo que hace eta o n_iterations medio.

Parámetros del reforzador de árboles

XGBoost Control overfitting

Para el mismo número de iteraciones, digamos $50$ . Una tasa de aprendizaje pequeña es un "infraajuste" (o el modelo tiene un "alto sesgo"), y una tasa de aprendizaje grande es un "sobreajuste" (o el modelo tiene una "alta varianza").

Example of changing learning rate ETA in XGBoost model

PS. La evidencia de un ajuste insuficiente es que tanto el conjunto de entrenamiento como el de prueba tienen un gran error, y la curva de error para el entrenamiento y la prueba están cerca el uno del otro. El signo de sobreajuste es que el error del conjunto de entrenamiento es muy bajo y el del conjunto de prueba es muy alto, las dos curvas están muy alejadas entre sí.

6voto

andynormancx Puntos 234

Con el método de Newton, se actualizan los parámetros restando el gradiente de la pérdida dividido por la curvatura de la pérdida. En la optimización por descenso de gradiente, se actualizan los parámetros restando el gradiente de la pérdida por la tasa de aprendizaje. En otras palabras, el recíproco de la tasa de aprendizaje se utiliza en lugar de la curvatura de la pérdida real.

Definamos el pérdida de problemas ser la pérdida que define lo que es un buen modelo frente a uno malo. Es la verdadera pérdida. Definamos la pérdida optimizada para ser lo que realmente se minimiza por sus reglas de actualización.

Por definición, un parámetro de regularización es cualquier término que está en la pérdida optimizada, pero no en la pérdida del problema. Dado que la tasa de aprendizaje actúa como un término cuadrático adicional en la pérdida optimizada, pero no tiene nada que ver con la pérdida del problema, es un parámetro de regularización.

Otros ejemplos de regularización que justifican esta perspectiva son:

  • El decaimiento del peso, que es como un término extra en la pérdida optimizada que penaliza los pesos grandes,
  • términos que penalizan los modelos complicados, y
  • términos que penalizan las correlaciones entre características.

1voto

abdelgha4 Puntos 13

Para resumir:

  • (menor tasa de aprendizaje, mismo número de iteraciones) -> "más regularizaciones"
  • (misma tasa de aprendizaje, menor número de iteraciones) -> "más regularizaciones"

En palabras sencillas, el efecto de las regularizaciones proviene de la insuficiencia de iteraciones para mantener la finura de la búsqueda planteada por la tasa de aprendizaje.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X