22 votos

¿Necesita realmente el aprendizaje automático algoritmos eficientes desde el punto de vista de los datos?

A menudo se dice que los métodos de aprendizaje profundo son muy ineficientes desde el punto de vista de los datos, ya que requieren entre 100 y 1000 ejemplos por clase, mientras que un ser humano necesita entre 1 y 2 para alcanzar una precisión de clasificación comparable.

Sin embargo, los conjuntos de datos modernos son enormes (o pueden hacerse enormes), lo que plantea la cuestión de si realmente necesitamos algoritmos eficientes en cuanto a los datos. ¿Existen áreas de aplicación en las que un algoritmo de aprendizaje automático eficiente en datos sería muy útil, a pesar de tener que hacer concesiones en otros ámbitos? Por ejemplo ¿eficacia de la formación o de la inferencia? ¿Sería útil un algoritmo de ML que fuera, digamos, 100 veces más eficiente con los datos, pero 1000 veces más lento?

Las personas que trabajan en algoritmos de datos eficientes a menudo mencionan la robótica como "motivación". Pero incluso para la robótica se pueden recopilar grandes conjuntos de datos, como se hace en esta fábrica de recopilación de datos de Google:

enter image description here

Básicamente, lo que me preocupa es que, aunque existen algoritmos eficientes desde el punto de vista de los datos ( Por ejemplo ILP, modelos gráficos) y podrían mejorarse aún más, su aplicabilidad práctica se reduce entre las tareas comunes, en las que existen enormes conjuntos de datos, y las raras, que quizá no merezca la pena automatizar (¡dejar algo para los humanos!).

36voto

Björn Puntos 457

No te equivocas del todo, a menudo será mucho más fácil recopilar más o mejores datos para mejorar un algoritmo que exprimir pequeñas mejoras del algoritmo.

Sin embargo, en la práctica, hay muchas situaciones en las que es difícil obtener un conjunto de datos realmente grande.

Claro que es fácil obtener conjuntos de datos realmente grandes cuando se utilizan enfoques (auto/no) supervisados o si las etiquetas se crean automáticamente (por ejemplo, si se busca en Google si un usuario hace clic o no en un enlace). Sin embargo, muchos problemas prácticos dependen de expertos humanos (cuyo tiempo puede resultar caro) para etiquetar los ejemplos. Cuando cualquier humano puede hacer el trabajo (por ejemplo, etiquetar un perro o un gato u otra cosa para ImageNet), esto puede ampliarse a millones de imágenes, pero cuando se paga a médicos para que clasifiquen imágenes médicas, decenas de miles (o quizás 100.000, más o menos) de imágenes etiquetadas es un conjunto de datos bastante grande. O si se necesita realizar un experimento químico para cada etiqueta.

Además, puede haber casos en los que el número de ejemplos posibles del mundo real sea naturalmente limitado (por ejemplo, datos de entrenamiento para predecir los ganadores de las elecciones presidenciales de EE.UU., predecir las erupciones de un volcán a partir de datos sísmicos, etc., que son cosas para las que hasta ahora sólo podemos tener una cantidad determinada de datos).

28voto

icelava Puntos 548

Trabajo en previsión de ventas al por menor. Cuando hay que prever la demanda de mañana del producto X en la tienda Y, sólo se dispone de una cantidad limitada de datos: posiblemente sólo los dos últimos años de ventas de este producto concreto en esta tienda concreta, o potencialmente las ventas de todos los productos en todas las tiendas, si se utiliza un modelo de aprendizaje cruzado. En cualquier caso, no se puede simplemente crear nuevos datos. (Y crear nuevos datos consiste en hacer funcionar realmente el supermercado y registrar las ventas y los inventarios, así que no es un asunto trivial).

Además, si se produce una pandemia sin precedentes en todo el mundo, el valor de los datos anteriores a esa fecha pasa a ser realmente dudoso, por lo que, para usos prácticos, la cantidad de datos acaba de disminuir drásticamente.

Por supuesto, tienes razón en que ciertos casos de uso tienen datos prácticamente ilimitados, o pueden crear datos sobre la marcha. Un ejemplo es el entrenamiento de redes para jugar a juegos como el ajedrez o el go: basta con dejar que varias instancias de tus modelos jueguen unas contra otras (aprendizaje por refuerzo).

11voto

Dipstick Puntos 4869

Si bien es cierto que hoy en día es bastante fácil reunir grandes pilas de datos, esto no significa que sean datos buenos. Por ejemplo, los datos textuales pueden ser entradas de Reddit, artículos de noticias o entradas de Wikipedia; las imágenes pueden ser todo tipo de imágenes publicadas por la gente; los vídeos pueden ser cosas publicadas en YouTube. Hay que tener en cuenta que estos datos pueden plantear muchos problemas.

En primer lugar, no está etiquetado. Para etiquetarlo, alguien tiene que hacerlo. Lo más habitual es que esto lo hagan trabajadores de Amazon Mechanical Turk a los que se les paga muy poco dinero por la tarea, por lo que no están realmente motivados para hacerlo correctamente, ni tienen ninguna motivación interna para etiquetar imágenes aleatorias. Además, no tienes garantías de que los etiquetadores tengan los conocimientos adecuados para etiquetar (por ejemplo, se les pide que etiqueten animales salvajes, o marcas de coches, con los que no están familiarizados). Puedes hacerlo tú mismo, pero necesitarías mucho tiempo, y esto tampoco garantiza que no haya errores humanos. Podrías hacer el etiquetado automáticamente, pero entonces tu algoritmo de aprendizaje automático "inteligente" aprendería de las etiquetas proporcionadas por una heurística "tonta", si la heurística funcionara, ¿necesitarías que el algoritmo más complicado aprendiera a imitarla..?

En segundo lugar, estos datos están sesgados. La mayoría de los conjuntos de datos textuales se limitan al inglés. La mayoría de los conjuntos de datos de imágenes con fotos de seres humanos muestran individuos de piel blanca. La mayoría de los conjuntos de datos con fotos de arquitectura muestran ciudades de Estados Unidos o Europa. No son realmente representativos, a no ser que se esté construyendo un modelo de aprendizaje automático que se utilizaría sólo por los hombres blancos de habla inglesa que viven en EE.UU.

Recientemente se ha publicado un bonito preprint sobre este tema Los errores generalizados en las etiquetas de los conjuntos de pruebas desestabilizan las pruebas de aprendizaje automático por Northcutt et al.

10voto

user33593 Puntos 201

Una vez me pidieron que construyera un modelo que clasificara los artefactos arqueológicos según su proceso de fabricación. Un gran problema: para algunas clases, sólo había cuatro muestras. Y muchos artefactos están rotos, así que incluso de las muestras que teníamos no se conocían todas las medidas (como su longitud total).

Sí, los "datos pequeños" son efectivamente un problema. Obtener más datos en este caso concreto habría significado enviar a los arqueólogos a excavar en las montañas de Asia Central y medir todas las características de los artefactos que me parecen significativas. En ese caso, más les valdría encontrar artefactos de una pieza, ¡no rotos! ;-)

10voto

Sean Hanley Puntos 2428

He aquí un par de ideas que añadir a lo que se ha publicado hasta ahora.

Quizá te interese echar un vistazo al famoso artículo sobre aprendizaje automático, Domingos, P. (2012). "Algunas cosas útiles que hay que saber sobre el aprendizaje automático". Comunicaciones de la ACM ( pdf ). Debería contener algunos elementos de reflexión. En concreto, aquí hay tres subsecciones relevantes:

  1. LOS DATOS POR SÍ SOLOS NO BASTAN
    La generalización como objetivo tiene otra consecuencia importante: Los datos por sí solos no bastan, por muchos que se tengan. Consideremos el aprendizaje de una función booleana de (digamos) 100 variables a partir de un millón de ejemplos. Hay $2^{100}$ - $10^6$ ejemplos cuyas clases no conoces. ¿Cómo averiguar cuáles son esas clases? A falta de más información, no hay manera de hacerlo mejor que lanzar una moneda al aire. ...

  2. LA INGENIERÍA DE PRESTACIONES ES LA CLAVE
    Al fin y al cabo, algunos proyectos de aprendizaje automático tienen éxito y otros fracasan. ¿Qué marca la diferencia? Fácilmente el factor más importante son las características utilizadas. Si tiene características independientes que se correlacionan bien con la clase. clase, el aprendizaje es fácil. En cambio, si la clase es una función muy compleja de las características, es posible que no pueda aprenderla. aprenderla. A menudo, los datos brutos no están en una forma que sea aprendizaje, pero se pueden construir características a partir de ellos que sí lo sean. que lo sean. ...

  3. MÁS DATOS MEJOR QUE UN ALGORITMO MÁS INTELIGENTE
    Supongamos que ha construido el mejor conjunto de características que puede, pero los clasificadores que está recibiendo todavía no son precisos lo suficiente. ¿Qué puede hacer ahora? Hay dos opciones principales: diseñar un algoritmo de aprendizaje mejor, o recopilar más datos (más ejemplos y, posiblemente, más características brutas, sujetas a la maldición de la dimensionalidad). la maldición de la dimensionalidad). Los investigadores en aprendizaje automático se ocupan principalmente de lo primero, pero pragmáticamente pragmáticamente, el camino más rápido hacia el éxito suele ser obtener más datos. Como regla general, un algoritmo tonto con montones y montones de datos supera a uno inteligente con cantidades modestas. ...

La otra cosa que diría es que la idea de que "un humano necesita 1-2 para alcanzar una precisión de clasificación comparable" se debe a que el humano no es una pizarra en blanco. Una persona tiene una gran experiencia (es decir, muchos datos previos) y un rico conocimiento conceptual que puede aportar al aprendizaje de una clasificación. (Las secciones 4 y 8 de Domingoes están relacionadas con esta idea del conocimiento previo y de saber a qué prestar atención). Para conectar estos hechos con el entrenamiento de un modelo (de aprendizaje profundo o de otro tipo), se podría considerar que el pre-entrenamiento de un modelo a veces ayuda bastante (aunque esto se hace menos hoy en día) y del mismo modo que los modelos bayesianos con priors suficientemente buenos también deberían funcionar mejor. Dicho esto, la sección 9 de Domingoes implica que podemos tener suficiente éxito sin ellos, debido a los crecientes volúmenes de datos que describes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X