La capacidad es un término informal. Está muy cerca (si no es un sinónimo) de la complejidad del modelo. Es una forma de hablar de lo complicado que es un patrón o una relación que puede expresar un modelo. Se puede esperar que un modelo con mayor capacidad sea capaz de modelar más relaciones entre más variables que un modelo con menor capacidad.
Haciendo una analogía con la definición coloquial de capacidad, se puede pensar en ella como la capacidad de un modelo para aprender de más y más datos, hasta que se haya "llenado" completamente de información.
Hay varias maneras de formalizar la capacidad y de calcular un valor numérico para ella, pero lo importante es que éstas son sólo algunas posibles "operacionalizaciones" de la capacidad (de la misma manera que, si alguien llegara a una fórmula para calcular la belleza, te darías cuenta de que la fórmula es sólo una interpretación falible de la belleza).
Dimensión de la CV es una formulación matemáticamente rigurosa de la capacidad. Sin embargo, puede haber una gran diferencia entre la dimensión VC de un modelo y la capacidad real del modelo para ajustarse a los datos. Aunque conocer la dimensión VC da un límite al error de generalización del modelo, éste suele ser demasiado flojo para ser útil con las redes neuronales.
Otra línea de investigación ver aquí es utilizar la norma espectral de las matrices de pesos de una red neuronal como medida de capacidad. Una forma de entenderlo es que la norma espectral limita la constante de Lipschitz de la red.
La forma más habitual de estimar la capacidad de un modelo es contar el número de parámetros. Cuantos más parámetros, mayor es la capacidad en general. Por supuesto, a menudo una red más pequeña aprende a modelar datos más complejos mejor que una red más grande, por lo que esta medida también está lejos de ser perfecta.
Otra forma de medir la capacidad podría ser entrenar el modelo con etiquetas aleatorias ( Neyshabur et. al ) -- si su red puede recordar correctamente un montón de entradas junto con etiquetas aleatorias, esto demuestra esencialmente que el modelo tiene la capacidad de recordar todos esos puntos de datos individualmente. Cuantos más pares de entrada/salida se puedan "aprender", mayor será la capacidad.
Adaptando esto a un autocodificador, podría generar entradas aleatorias, entrenar a la red para que las reconstruya, y luego contar cuántas entradas aleatorias puede reconstruir con éxito con menos de $\epsilon$ error.