Cuando se habla de redes neuronales (hoy en día especialmente de redes neuronales profundas), casi siempre se da el caso de que la red tiene muchos más parámetros que muestras de entrenamiento .
Teóricamente, una red neuronal simple de dos capas con 2n+d parámetros es capaz de ajustarse perfectamente a cualquier conjunto de datos de n muestras de dimensión d (Zhang et al., 2017) . Para responder a su pregunta, un modelo tan grande puede dar lugar a un ajuste excesivo.
Lo asombroso de las redes neuronales profundas es que funcionan muy bien a pesar de estos posibles problemas de sobreajuste. Normalmente es gracias a varios efectos de regularización implícitos en el algoritmo de entrenamiento/optimización y en la arquitectura de la red, y a métodos de regularización utilizados explícitamente, como el dropout, el weight decay y el aumento de datos. Mi artículo Regularización para el aprendizaje profundo: Una taxonomía describe en profundidad algunos de estos efectos.
Lo evidente ventaja de tener muchos parámetros es que se pueden representar funciones mucho más complicadas que con menos parámetros. Las relaciones que modelan las redes neuronales suelen ser muy complicadas y utilizar una red pequeña (adaptar el tamaño de la red al tamaño del conjunto de entrenamiento, es decir, hacer que los datos parezcan grandes utilizando un modelo pequeño) puede provocar el problema de que la red sea demasiado simple e incapaz de representar el mapeo deseado (alto sesgo). Por otro lado, si tiene muchos parámetros, la red es lo suficientemente flexible como para representar el mapeo deseado y siempre puede emplear una regularización más fuerte para evitar el sobreajuste.
Para responder a la última parte de su pregunta: El número de parámetros está totalmente definido por el número de capas de la red, el número de unidades de cada capa y la dimensionalidad de la entrada y la salida.
Para más información, consulte también Relación entre el sobreajuste del modelo y el número de parámetros .