En mi opinión, no hay diferencias formales que distingan el aprendizaje automático y la estadística en el nivel fundamental de ajuste de modelos a los datos. Puede haber diferencias culturales en la elección de los modelos, los objetivos de la adaptación de los modelos a los datos y, en cierta medida, las interpretaciones.
En los ejemplos típicos que se me ocurren siempre tenemos
- una colección de modelos $M_i$ para $i \in I$ para algún conjunto de índices $I$ ,
- y para cada $i$ un desconocido componente $\theta_i$ (los parámetros, pueden ser de dimensión infinita) del modelo $M_i$ .
Equipamiento $M_i$ a los datos es casi siempre un problema de optimización matemática que consiste en encontrar la elección óptima del componente desconocido $\theta_i$ para hacer $M_i$ ajustarse a los datos medidos por alguna función favorita.
La selección entre los modelos $M_i$ es menos estándar, y hay una gama de técnicas disponibles. Si el objetivo del ajuste del modelo es puramente predictivo, la selección del modelo se hace intentando obtener un buen rendimiento predictivo, mientras que si el objetivo principal es interpretar los modelos resultantes, se pueden seleccionar modelos más fácilmente interpretables en lugar de otros modelos, incluso si se espera que su poder predictivo sea peor.
Lo que podría llamarse de la vieja escuela La selección de modelos estadísticos se basa en pruebas estadísticas, tal vez combinadas con estrategias de selección por etapas, mientras que la selección de modelos de aprendizaje automático suele centrarse en el error de generalización esperado, que a menudo se estima utilizando la validación cruzada. Sin embargo, los desarrollos actuales y la comprensión de la selección de modelos parecen converger hacia un terreno más común, véase, por ejemplo, Selección de modelos y promediación de modelos .
Inferir la causalidad de los modelos
El quid de la cuestión es cómo ¿podemos interpretar un modelo? Si los datos obtenidos proceden de un experimento cuidadosamente diseñado y el modelo es adecuado, es plausible que podamos interpretar el efecto de un cambio de una variable en el modelo como un efecto causal, y si repetimos el experimento e intervenimos sobre esta variable concreta podemos esperar observar el efecto estimado. Sin embargo, si los datos son observacionales, no podemos esperar que los efectos estimados en el modelo se correspondan con los efectos observables de la intervención. Esto requerirá supuestos adicionales, independientemente de si el modelo es un "modelo de aprendizaje automático" o un "modelo estadístico clásico".
Es posible que las personas formadas en el uso de modelos estadísticos clásicos centrados en la estimación de parámetros univariantes y en la interpretación del tamaño del efecto tengan la impresión de que una interpretación causal es más válida en este marco que en un marco de aprendizaje automático. Yo diría que no es así.
El ámbito de la inferencia causal en estadística no elimina realmente el problema, pero hace explícitas las suposiciones sobre las que descansan las conclusiones causales. Se denominan suposiciones no comprobables . El papel Inferencia causal en estadística: Una visión general de Judea Pearl es un buen artículo para leer. Una de las principales contribuciones de la inferencia causal es la recopilación de métodos para la estimación de los efectos causales bajo supuestos en los que realmente hay factores de confusión no observados, lo que por otra parte es una gran preocupación. Véase la sección 3.3 del artículo de Pearl. Un ejemplo más avanzado puede encontrarse en el documento Modelos estructurales marginales e inferencia causal en epidemiología .
Es una cuestión de materia si los supuestos no comprobables se mantienen. Son precisamente incuestionables porque no podemos probarlas con los datos. Para justificar los supuestos se necesitan otros argumentos.
Como ejemplo del encuentro entre el aprendizaje automático y la inferencia causal, las ideas de estimación de máxima verosimilitud dirigida tal y como se presenta en Aprendizaje por máxima verosimilitud dirigida de Mark van der Laan y Daniel Rubin suelen explotar las técnicas de aprendizaje automático para la estimación no paramétrica seguida de la "orientación" hacia un parámetro de interés. Este último podría ser perfectamente un parámetro con una interpretación causal. La idea en Super Aprendiz es confiar en gran medida en las técnicas de aprendizaje automático para la estimación de los parámetros de interés. Mark van der Laan (comunicación personal) señala que los modelos estadísticos clásicos, sencillos e "interpretables" suelen ser erróneos, lo que conduce a estimadores sesgados y a una evaluación demasiado optimista de la incertidumbre de las estimaciones.