Soy un recién llegado en el aprendizaje automático (también algo de estadística), el aprendizaje de conocimientos (supervisado / algoritmos de aprendizaje no supervisado, los métodos de optimización pertinentes, regularizaciones, algunas filosofías (como sesgo-varianza trade-off?)) por un tiempo. Sé que sin una práctica real, no conseguiría una comprensión profunda de esas cosas del aprendizaje automático.
Así que empiezo con algún problema de clasificación con datos reales, digamos clasificación de dígitos manuscritos (MNIST). Para mi sorpresa, sin ningún aprendizaje/ingeniería de funciones la precisión alcanza el 0,97 utilizando un clasificador de bosque aleatorio con valores de píxeles brutos como entrada. También he probado otros algoritmos de aprendizaje, como SVM, LR con parámetros que se sintonizan.
Luego me perdí, ¿sería muy fácil o me estoy perdiendo algo aquí? ¿Simplemente coger un algoritmo de aprendizaje del toolkit y ajustar algunos parámetros?
Si eso fuera todo sobre el aprendizaje automático en la práctica, entonces estaría perdiendo mi interés en este campo. Pensé y leí algunos blogs durante unos días, y llegué a algunas conclusiones:
-
La parte más importante del aprendizaje automático en la práctica es ingeniería de funciones es decir, dados los datos, encontrar la mejor representación de las características.
-
Qué algoritmo de aprendizaje utilizar también es importante, así como el ajuste de los parámetros, pero la elección final depende más de la experimentación.
No estoy seguro de haberlo entendido bien, espero que alguien pueda corregirme y darme alguna sugerencia sobre el aprendizaje automático en la práctica.