4 votos

¿Influye el tamaño del conjunto de datos en un algoritmo de aprendizaje automático?

Entonces, imagina tener acceso a suficientes datos (millones de puntos de datos para entrenamiento y prueba) de calidad suficiente. Por favor, ignora el desplazamiento de concepto por ahora y asume que los datos son estáticos y no cambian con el tiempo. ¿Tiene sentido utilizar todos esos datos en términos de la calidad del modelo?

Brain y Webb (http://www.csse.monash.edu.au/~webb/Files/BrainWebb99.pdf) han incluido algunos resultados sobre experimentar con diferentes tamaños de conjuntos de datos. Sus algoritmos probados convergen a ser algo estables después de entrenar con 16,000 o 32,000 puntos de datos. Sin embargo, dado que vivimos en el mundo de big data tenemos acceso a conjuntos de datos de millones de puntos, por lo que el documento es algo relevante pero enormemente desactualizado.

¿Existe alguna investigación más reciente sobre el impacto de los tamaños de conjunto de datos en los algoritmos de aprendizaje (Naive Bayes, Árboles de Decisión, SVM, redes neuronales, etc.)?

¿Cuándo converge un algoritmo de aprendizaje a un modelo estable en el que más datos no incrementan la calidad? ¿Puede ocurrir después de 50,000 puntos de datos, o tal vez después de 200,000 o solo después de 1,000,000? ¿Existe una regla empírica? ¿O tal vez no hay forma de que un algoritmo converja a un modelo estable, a un equilibrio cierto? ¿Por qué hago esta pregunta? Imagina un sistema con almacenamiento limitado y una gran cantidad de modelos únicos (miles de modelos con su propio conjunto de datos único) y sin forma de aumentar el almacenamiento. Por lo tanto, limitar el tamaño de un conjunto de datos es importante.

¿Alguna reflexión o investigación al respecto?

2voto

Rucent88 Puntos 126

Estás haciendo referencia a lo que se conoce como Complejidad de la Muestra en el marco de aprendizaje PAC. Ha habido una cantidad significativa de investigación en esta área. En resumen, en la mayoría de los casos del mundo real, nunca se sabe cuál es la verdadera complejidad de la muestra para un conjunto de datos dado, sin embargo, se puede acotar. Los límites suelen ser muy laxos y generalmente no transmiten más que el orden de ejemplos requeridos para alcanzar un error particular con una probabilidad determinada.

Por ejemplo, para alcanzar un error de predicción dentro de epsilon, con una alta probabilidad (1 - delta), es posible que necesites un número de muestras proporcional a alguna función de epsilon y delta. Por ejemplo, si tu complejidad de muestra es O(1/epsilon) estás mejor que si tu complejidad es (1/epsilon^2). Es decir, para alcanzar una tasa de error del 1%, en el primer caso necesitas O(100) ejemplos, y O(10000) en el segundo. Pero recuerda, estos son aún O(.) y no números exactos.

Si buscas los límites de complejidad de muestra de clases particulares de algoritmos, tendrás una idea. Algunas notas de conferencia aquí.

1voto

James Puntos 1045

Depende tanto de la complejidad del modelo (el número de parámetros efectivos) como de la relación señal/ruido en los datos. Cuanto mayor sea lo primero y menor lo segundo, más datos serán necesarios para la convergencia. Por lo tanto, todas esas reglas generales no pueden evitar estar vinculadas a un dominio particular donde se utilizan algunos modelos típicos y se asume una relación señal/ruido promedio.

0voto

Erin Drummond Puntos 154

Tenga en cuenta que un conjunto de datos de unos pocos millones no es tan grande en comparación con muchos casos de uso del mundo real:

  • Una imagen en blanco y negro de 256 píxeles tiene 2^256 posibilidades.
  • Aplicar un "Personas que les gusta X también les gusta Y" es cuadrático, por lo que un conjunto de artículos de 1,000 artículos ya te lleva a 1M. En general, hay muchos más artículos y su distribución es de cola larga, por lo que necesitarás muchas muestras para cubrir los artículos raros.
  • Los idiomas son muy dispersos. Un modelo simple de bigramas conduce a un factor cuadrático y aquí los millones tampoco son mucho.

Además de eso, los datos son una buena manera de mejorar el rendimiento de los algoritmos. Un artículo clásico sobre el tema es "La efectividad irrazonable de los datos".

Para un tratamiento formal de la pregunta, podemos usar el concepto de dimensión VC. La dimensión VC es una forma de modelar la complejidad de la clase de hipótesis que estás tratando de representar. Cuanto más compleja sea la clase, más muestras necesitarás.

Por ejemplo, necesitarás más muestras para estimar la distribución de un dado que para la distribución de una moneda.

La complejidad de la muestra es lineal en la dimensión VC. Para cualquier conjunto de datos que elijas, habrá clases de conceptos para las cuales será demasiado pequeño.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X