El aprendizaje automático contemporáneo, como campo, requiere una mayor familiaridad con los métodos bayesianos y con las matemáticas probabilísticas que la estadística tradicional o incluso las ciencias sociales cuantitativas, en las que siguen dominando los métodos estadísticos frecuentistas. Es menos probable que los que vienen de la física se sorprendan por la importancia de las probabilidades en el ML, ya que la física cuántica es completamente probabilística (de hecho, muchos algoritmos probabilísticos clave llevan el nombre de físicos). De hecho, tres de los principales libros de texto de ML (aunque todos ellos son lo suficientemente amplios como para ser considerados una visión general del ML) están escritos por autores que favorecen explícitamente los métodos probabilísticos (y McKay y Bishop se formaron como físicos):
- Kevin Murphy's Aprendizaje automático: Una perspectiva probabilística (un obra de referencia enciclopédica y casi exhaustiva)
- Christopher Bishop's Reconocimiento de patrones y aprendizaje automático (un riguroso introducción que supone muchos menos conocimientos previos)
- David McKay's Teoría de la información, inferencia y algoritmos de aprendizaje (con énfasis en la teoría de la información, pero acogiendo los métodos bayesianos)
Mi punto: los libros de texto de ML más utilizados reflejan el mismo enfoque probabilístico que usted describe en su curso de Introducción a ML.
En cuanto a tu pregunta concreta, Zoubin Ghahramani, otro influyente defensor del ML probabilístico, sostiene que la versión frecuentista dominante del ML -el aprendizaje profundo- adolece de seis limitaciones que los métodos explícitamente probabilísticos y bayesianos suelen evitar:
- muy con hambre de datos
- muy computación intensiva para formar y desplegar
- pobre en la representación de incertidumbre y saber lo que no saben
- fácilmente engañado mediante ejemplos contradictorios
- difícil de optimizar (no convexo, elección de arquitectura e hiperparámetros)
- ininterpretable cajas negras , falta de transparencia, difícil de confiar
Ghahramani desarrolla estos puntos en muchos y muy buenos tutoriales y en este artículo general no especializado de Naturaleza (2015) en Aprendizaje automático probabilístico e inteligencia artificial .
El artículo de Ghahramani destaca que los métodos probabilísticos son cruciales cuando no se tienen suficientes datos. Explica (sección 7) que los modelos bayesianos no paramétricos pueden ampliarse para ajustarse a conjuntos de datos de cualquier con un número potencialmente infinito de parámetros. Y señala que muchos conjuntos de datos que pueden parecer enormes (millones de ejemplos de entrenamiento) son en realidad grandes colecciones de pequeños conjuntos de datos, donde los métodos probabilísticos siguen siendo cruciales para manejar las incertidumbres derivadas de la insuficiencia de datos. Una tesis similar fundamenta la Parte III del célebre libro Aprendizaje profundo donde Ian Goodfellow, Yoshua Bengio y Aaron Courville argumentan que la "Investigación del Aprendizaje Profundo" debe volverse probabilística para ser más eficiente con los datos.
Como los modelos probabilísticos "saben lo que no saben", pueden ayudar a evitar decisiones terribles basadas en extrapolaciones infundadas a partir de datos insuficientes. A medida que las preguntas que nos hacemos y los modelos que construimos son cada vez más complejos, aumentan los riesgos de la insuficiencia de datos. Y a medida que las decisiones que basamos en nuestros modelos de ML se vuelven cada vez más arriesgadas, también aumentan los peligros asociados a los modelos que se equivocan con seguridad (incapaces de echarse atrás y decir "oye, espera, en realidad nunca he visto entradas como estas"). Dado que ambas tendencias parecen irreversibles (la popularidad y la importancia de los modelos), espero que los métodos probabilísticos se extiendan cada vez más con el tiempo. Mientras nuestros conjuntos de datos sigan siendo pequeños en relación con la complejidad de nuestras preguntas y con los riesgos de dar malas respuestas, deberíamos utilizar modelos probabilísticos que conozcan sus propias limitaciones. Los mejores modelos probabilísticos tienen algo análogo a nuestra capacidad humana de reconocer los sentimientos de confusión y desorientación (que registran incertidumbres enormes o agravadas). Pueden advertirnos eficazmente cuando se adentran en territorio inexplorado y evitar así que tomemos decisiones potencialmente catastróficas cuando se acercan o superan sus límites.