Me pregunto por qué el Aprendizaje Automático necesita una gran cantidad de datos en comparación con la inferencia estadística. En estadística, podemos usar una pequeña cantidad de datos para una inferencia estadística, pero en Aprendizaje Automático, todo el mundo dice que necesitamos muchos datos. ¿Por qué el Aprendizaje Automático necesita toneladas de datos más en comparación con la inferencia estadística?
Respuestas
¿Demasiados anuncios?En general, todas las demás cosas siendo iguales (¿cuándo?) los modelos de aprendizaje automático requieren cantidades similares de datos que los modelos estadísticos. En general, los modelos estadísticos tienden a tener más suposiciones que los modelos de aprendizaje automático y son estas suposiciones adicionales las que te otorgan más poder (asumiendo que son verdaderas/válidas), lo que significa que se necesitan muestras más pequeñas para obtener la misma confianza. Puedes pensar en la diferencia entre los modelos estadísticos/de aprendizaje automático como una diferencia entre modelos paramétricos y no paramétricos.
Los modelos complejos (que son más predominantes en el aprendizaje automático) con muchos parámetros requieren más datos (como en deep NN), pero tiene que ver con los parámetros y no con los modelos en sí mismos. Si construyeras un modelo estadístico complejo con muchas interacciones y términos polinómicos, de manera similar necesitarías grandes cantidades de datos para estimar todos los parámetros (a menos que seas bayesiano... ¡entonces ni siquiera necesitas datos!).
Bueno, puede inferir con una pequeña cantidad de datos. Solo tenemos conceptos como el poder estadístico para decirnos cuándo nuestros resultados serían confiables y cuándo no lo serían.
En general, se necesita mucha información en el aprendizaje automático para superar la varianza en estimadores/modelos. Los árboles, por ejemplo, son estimadores de alta varianza increíblemente. La única forma real de combatir eso es agregar más datos ya que la varianza disminuye proporcional a $1/n$.
El aprendizaje automático no requiere grandes cantidades de datos, es solo que la corriente actual es para modelos que funcionan con big data (principalmente redes neuronales profundas, que han estado presentes desde la década de 1990, pero antes de eso eran las SVM y antes de eso redes neuronales "superficiales"), pero la investigación en otras formas de aprendizaje automático ha continuado. Mis propios intereses de investigación personal están en la selección de modelos para datos pequeños, lo cual está lejos de ser un problema resuelto, simplemente no está de moda. Otro ejemplo serían los Procesos Gaussianos, que son muy buenos cuando se requiere de un modelo complejo (no lineal), pero los datos son relativamente escasos.
Es una lástima que haya tanto enfoque en el aprendizaje profundo y el big data, ya que significa que muchos nuevos practicantes desconocen la investigación que se realizó hace 20 años o más y que sigue siendo válida hoy en día, y como resultado están cayendo en muchos de los mismos errores que encontramos en aquel entonces. Lamentablemente, el ML y la IA atraviesan estos ciclos de exageración y depresión.
Al final del día, el ML es solo estadísticas, pero una rama más enfocada computacionalmente de la estadística.
El aprendizaje automático (a menudo) necesita una gran cantidad de datos porque no parte de un modelo bien definido y utiliza datos adicionales para definir o mejorar el modelo. Como consecuencia, a menudo existen una gran cantidad de parámetros adicionales que deben ser estimados, parámetros o ajustes que ya están definidos a priori en métodos que no son de aprendizaje automático.
-
La inferencia estadística, si solo requiere pocos datos, a menudo se realiza con algún modelo que ya se conoce/define antes de que se realicen las observaciones. El aprendizaje ya se ha realizado.
El objetivo de la inferencia es estimar los pocos parámetros faltantes en el modelo y verificar la precisión del mismo.
-
El aprendizaje automático a menudo comienza con un modelo muy mínimo o ni siquiera tiene un modelo, sino solo un conjunto de reglas a partir del cual se puede crear o seleccionar un modelo.
Por ejemplo, se aprende qué variables son realmente adecuadas para realizar buenas predicciones o se utiliza una red neuronal flexible para crear una función que se ajuste bien y haga buenas predicciones.
El aprendizaje automático no solo busca unos pocos parámetros en un modelo ya fijo. En cambio, es el propio modelo el que se genera en el aprendizaje automático. Para eso se necesitan datos adicionales.
A veces también es al revés: el aprendizaje automático necesita una gran cantidad de datos. Esa es la situación con muchas variables pero sin un modelo bien definido.
Un modelo típico de aprendizaje automático contiene miles a millones de parámetros, mientras que el modelado estadístico suele estar limitado a un puñado de parámetros.
Como regla general, la cantidad mínima de muestras que necesitas es proporcional a la cantidad de parámetros que deseas estimar. Por lo tanto, para el modelado estadístico de un puñado de parámetros, es posible que solo necesites cien muestras, mientras que para el aprendizaje automático con millones de parámetros, es posible que necesites millones de muestras.
- Ver respuestas anteriores
- Ver más respuestas