18 votos

¿Qué significa interpolar el conjunto de entrenamiento?

Acabo de leer este artículo: Entender el aprendizaje profundo (todavía) requiere repensar la generalización

En la sección 6.1 me he topado con la siguiente frase

Concretamente, en el régimen sobreparametrizado en el que la capacidad del modelo supera con creces el tamaño del conjunto de entrenamiento, el ajuste de todos los (es decir, interpolar el conjunto de entrenamiento), incluidos los ruidosos, no está necesariamente reñido con la generalización.

No entiendo muy bien el término "interpolar" en el contexto del ajuste de datos de entrenamiento. ¿Por qué hablamos de "interpolación" en este contexto? ¿Qué significa exactamente este término? ¿Hay algún otro término que pueda utilizarse en su lugar?

A mi entender, interpolación significa la predicción dentro del dominio de entrenamiento para alguna entrada nueva que no formaba parte del conjunto de entrenamiento.

24voto

Dipstick Puntos 4869

Tu pregunta ya ha recibido dos buenas respuestas, pero creo que hace falta algo más de contexto.

En primer lugar, estamos hablando de modelos sobreparametrizados y el fenómeno del doble descenso . Por modelos sobreparametrizados entendemos aquellos que tienen forma más parámetros que datos . Por ejemplo, Neal (2019), y Neal et al (2018) entrenaron una red con cientos de miles de parámetros para una muestra de 100 imágenes MNIST. Los modelos discutidos son tan grandes, que no serían razonables para ninguna aplicación práctica. Al ser tan grandes, son capaces de memorizar completamente los datos de entrenamiento. Antes de el fenómeno del doble descenso atrajo más atención en la comunidad del aprendizaje automático, ya que se suponía que la memorización de los datos de entrenamiento conducía a un ajuste excesivo y a una generalización deficiente en general.

Como ya mencionado por @jcken , si un modelo tiene un número enorme de parámetros, puede fácilmente ajustar una función a los datos tal que "conecte todos los puntos" y en el momento de la predicción sólo interpolar entre los puntos. Me repetiré, pero hasta hace poco suponíamos que esto llevaría a un sobreajuste y a un mal rendimiento. Con los modelos increíblemente enormes, esto no tiene por qué ser así. Los modelos seguirían interpolando, pero la función sería tan flexible que no afectaría al rendimiento del conjunto de pruebas.

Para entenderlo mejor, considere la hipótesis del billete de lotería . En términos generales, dice que si se inicializa y entrena aleatoriamente un gran modelo de aprendizaje automático (red profunda), esta red contendría una subred más pequeña, el "billete de lotería", de manera que se podría podar la red grande manteniendo las garantías de rendimiento. La imagen siguiente (tomada del puesto vinculado ), ilustra dicha poda. Tener un gran número de parámetros es como comprar montones de billetes de lotería: cuantos más tengas, más posibilidades tendrás de ganar. En tal caso, se puede encontrar un modelo de billete de lotería que interpola entre los puntos de datos, pero también generaliza.

Animated illustration of an algorithm pruning a neural network to a smaller sub-network.

Otra forma de verlo es considerar una red neuronal como una especie de modelo de conjunto . Toda red neuronal tiene una capa preúltima (imagen inferior, adaptada de este ), que puedes considerar como una colección de representaciones intermedias de tu problema. Las salidas de esta capa se agregan (normalmente utilizando una capa densa) para realizar la predicción final. Esto es como ensamblar muchos modelos más pequeños. Una vez más, si los modelos más pequeños memorizan los datos, aunque cada uno de ellos se ajuste en exceso, al agregarlos, es de esperar que los efectos se anulen.

Fully connected neural network diagram. The last hidden layer is circled in red.

Todos los algoritmos de aprendizaje automático tipo de interpolación entre los puntos de datos, pero si hay más parámetros que datos, se memorizarían literalmente los datos y se interpolarían entre ellos.

13voto

Jeroen Vannevel Puntos 177

En términos sencillos, un interpolador literalmente "une los puntos".

He aquí un sencillo resumen gráfico de lo que puede hacer la interpolación y por qué puede ser horrible. Me gustaría subrayar que la interpolación desempeña un papel útil en las estadísticas/ml, pero debe utilizarse con cuidado. Los puntos negros son datos de entrenamiento y los rojos cruzados son un conjunto de datos similares extraídos del mismo proceso de generación de datos. Image of a linear fit to data (left) and a high order polynomial interpolator (right)

Podemos ver que el gráfico de la izquierda se ajusta bien tanto a los datos de entrenamiento como a los de prueba. En el gráfico de la izquierda sólo he utilizado la regresión lineal para ajustar una línea a los datos (sólo $2$ parámetros). La curva del gráfico de la derecha predice perfectamente el conjunto de entrenamiento, pero parece nada como el conjunto de pruebas. Había utilizado un $11^{th}$ (más intercepto) para ajustar el interpolador. Además, en el conjunto de pruebas, el ajuste lineal da $MSE = 23.8$ el interpolador da $MSE = 10350842349$ -- ¡No es bueno!

7voto

Daniel Duque Puntos 1

Aparte del significado literal de interpolación, esto está relacionado con algo llamado modelos de aprendizaje profundo totally memorize the training data . Por lo tanto, tanto interpolating y memorisation en este documento/contexto significa una pérdida de entrenamiento nula, pero sin sobreajustar el conjunto de pruebas. De ahí el curioso fenómeno, que normalmente llamaríamos sobreadaptación (sobreentrenamiento en realidad), que aún no se ha resuelto.

3voto

R00t Puntos 20

Añadiría que la cita contiene la definición "ajustar todos los ejemplos de entrenamiento... incluidos los ruidosos". Por tanto, la pérdida de entrenamiento es cero. El comentario "incluidos los ruidosos" implica que los datos son generados por un proceso digamos

$y= f(x) + \epsilon$

Dónde $\epsilon$ representa el ruido. Ajustando el modelo de forma que $y=f(x)$ para cada ejemplo de formación, incluso cuando $\epsilon$ es distinto de cero estás interpolando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X