Processing math: 100%

27 votos

qué ocurre cuando un modelo tiene más parámetros que muestras de entrenamiento

En una red neuronal sencilla, por ejemplo, el número de parámetros se mantiene pequeño en comparación con el número de muestras disponibles para el entrenamiento, lo que quizá obligue al modelo a aprender los patrones de los datos. ¿No es así?

Mi pregunta es qué repercusiones podríamos tener en un escenario en el que el número de parámetros de un modelo es superior al número de instancias de entrenamiento disponibles.

¿Puede un modelo de este tipo conducir a un ajuste excesivo? ¿Qué efecto pueden tener esos parámetros adicionales en el rendimiento del modelo?

Por favor, acláreme esta duda. Creo que sólo la representación de los datos (número de capas ocultas, número de neuronas en cada capa, etc.) determina el número de parámetros del modelo. ¿Estoy en lo cierto?

42voto

Jan Kukacka Puntos 1027

Cuando se habla de redes neuronales (hoy en día especialmente de redes neuronales profundas), casi siempre se da el caso de que la red tiene muchos más parámetros que muestras de entrenamiento .

Teóricamente, una red neuronal simple de dos capas con 2n+d parámetros es capaz de ajustarse perfectamente a cualquier conjunto de datos de n muestras de dimensión d (Zhang et al., 2017) . Para responder a su pregunta, un modelo tan grande puede dar lugar a un ajuste excesivo.

Lo asombroso de las redes neuronales profundas es que funcionan muy bien a pesar de estos posibles problemas de sobreajuste. Normalmente es gracias a varios efectos de regularización implícitos en el algoritmo de entrenamiento/optimización y en la arquitectura de la red, y a métodos de regularización utilizados explícitamente, como el dropout, el weight decay y el aumento de datos. Mi artículo Regularización para el aprendizaje profundo: Una taxonomía describe en profundidad algunos de estos efectos.

Lo evidente ventaja de tener muchos parámetros es que se pueden representar funciones mucho más complicadas que con menos parámetros. Las relaciones que modelan las redes neuronales suelen ser muy complicadas y utilizar una red pequeña (adaptar el tamaño de la red al tamaño del conjunto de entrenamiento, es decir, hacer que los datos parezcan grandes utilizando un modelo pequeño) puede provocar el problema de que la red sea demasiado simple e incapaz de representar el mapeo deseado (alto sesgo). Por otro lado, si tiene muchos parámetros, la red es lo suficientemente flexible como para representar el mapeo deseado y siempre puede emplear una regularización más fuerte para evitar el sobreajuste.

Para responder a la última parte de su pregunta: El número de parámetros está totalmente definido por el número de capas de la red, el número de unidades de cada capa y la dimensionalidad de la entrada y la salida.

Para más información, consulte también Relación entre el sobreajuste del modelo y el número de parámetros .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X