Supongo que lo más importante es que las muestras de tus datos estén bien repartidas, porque por muchos datos que tengas, más datos siempre serán mejores. Al fin y al cabo, si intentas aprender a distinguir entre imágenes de gatos y perros, no puedes esperar que tu modelo funcione bien si sólo le das imágenes de gatos.
Como se sugiere en el respuesta de Kevin L tiene sentido considerar la diferencia entre el error de entrenamiento y el error de prueba. Si los datos de prueba son independientes de los datos de entrenamiento, esto nos da una indicación de lo bien que se generaliza el modelo a los datos que no están disponibles. Algo que me gustaría añadir es el hecho de que una gran diferencia entre el error de entrenamiento y el de prueba sólo indica que el modelo no se generaliza bien, es decir, que se está sobreajustando en los datos de entrenamiento. Más datos probablemente ayudarán, porque ahora la red también tiene que modelar los puntos de datos adicionales, por lo que ya no puede sobreajustar tanto. Sin embargo, podría valer más la pena cambiar el modelo para que generalice mejor. Este capítulo de un excelente libro explica qué tipos de regularización existen y cómo pueden aplicarse en las redes para obtener una mejor generalización.
Si buscas una medida más cuantitativa, hace poco encontré esta pregunta en quora . Se trata de un autocodificador, pero supongo que también debería ser aplicable a tu ejemplo. No tengo ni idea de si esto es correcto (por favor, hágamelo saber), pero yo razonaría que, por ejemplo, para MNIST, se podría argumentar que usted trata de reducir las imágenes con un máximo de 28 * 28 * 8 * 10 000 = 62 720 000 bits de entropía a diez clases en la codificación de una sola vez con 10 * 10 * 10 000 = 1 000 000 bits de entropía. Como sólo nos interesa el 1 000 000 de bits de entropía en la salida, podemos decir que con 1 000 000 de parámetros, cada parámetro representa un solo bit, lo que supone 1e-4 bits por muestra. Esto significa que necesitarías más datos. O tienes demasiados parámetros, porque por ejemplo con 100 parámetros, tienes 10 000 bits por parámetro y por tanto 1 bit por muestra. No obstante, vuelvo a insistir en que es la primera vez que veo algo así y si alguien pudiera confirmarlo, se lo agradecería.