Entonces, imagina tener acceso a suficientes datos (millones de puntos de datos para entrenamiento y prueba) de calidad suficiente. Por favor, ignora el desplazamiento de concepto por ahora y asume que los datos son estáticos y no cambian con el tiempo. ¿Tiene sentido utilizar todos esos datos en términos de la calidad del modelo?
Brain y Webb (http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf) han incluido algunos resultados sobre experimentar con diferentes tamaños de conjuntos de datos. Sus algoritmos probados convergen a ser algo estables después de entrenar con 16,000 o 32,000 puntos de datos. Sin embargo, dado que vivimos en el mundo de big data tenemos acceso a conjuntos de datos de millones de puntos, por lo que el documento es algo relevante pero enormemente desactualizado.
¿Existe alguna investigación más reciente sobre el impacto de los tamaños de conjunto de datos en los algoritmos de aprendizaje (Naive Bayes, Árboles de Decisión, SVM, redes neuronales, etc.)?
¿Cuándo converge un algoritmo de aprendizaje a un modelo estable en el que más datos no incrementan la calidad? ¿Puede ocurrir después de 50,000 puntos de datos, o tal vez después de 200,000 o solo después de 1,000,000? ¿Existe una regla empírica? ¿O tal vez no hay forma de que un algoritmo converja a un modelo estable, a un equilibrio cierto? ¿Por qué hago esta pregunta? Imagina un sistema con almacenamiento limitado y una gran cantidad de modelos únicos (miles de modelos con su propio conjunto de datos único) y sin forma de aumentar el almacenamiento. Por lo tanto, limitar el tamaño de un conjunto de datos es importante.
¿Alguna reflexión o investigación al respecto?