Soy bastante nuevo en Aprendizaje Automático/Modelado y me gustaría tener información sobre este problema. Tengo un conjunto de datos donde el número de observaciones es $n<200$ sin embargo, el número de variables es $p\sim 8000$ . En primer lugar, ¿tiene siquiera sentido considerar la posibilidad de construir un modelo en un conjunto de datos como éste o se debería considerar una técnica de selección de variables para empezar, como la regresión ridge o Lasso? He leído que esta situación puede dar lugar a un ajuste excesivo. ¿Es éste el caso para todas las técnicas de ML o algunas técnicas lo manejan mejor que otras? Sin demasiadas matemáticas, una explicación sencilla de por qué las matemáticas empiezan a fallar para $p>n$ sería de agradecer.
Respuestas
¿Demasiados anuncios?Sin duda es posible ajustar buenos modelos cuando hay más variables que puntos de datos, pero hay que hacerlo con cuidado.
Cuando hay más variables que puntos de datos, el problema puede no tener una solución única a menos que se restrinja aún más. Es decir, puede haber múltiples soluciones (quizás infinitas) que se ajusten igualmente bien a los datos. Un problema de este tipo se denomina "mal planteado" o "subdeterminado". Por ejemplo, cuando hay más variables que puntos de datos, la regresión por mínimos cuadrados estándar tiene infinitas soluciones que consiguen un error cero en los datos de entrenamiento.
Sin duda, un modelo así se ajustaría en exceso porque es "demasiado flexible" para la cantidad de datos de entrenamiento. A medida que aumenta la flexibilidad del modelo (por ejemplo, más variables en un modelo de regresión) y se reduce la cantidad de datos de entrenamiento, es cada vez más probable que el modelo consiga un error bajo ajustándose a fluctuaciones aleatorias de los datos de entrenamiento que no representan la verdadera distribución subyacente. Por lo tanto, el rendimiento será bajo cuando el modelo se ejecute con datos futuros extraídos de la misma distribución.
Tanto el problema de la mala propuesta como el del ajuste excesivo pueden resolverse imponiendo restricciones. Esto puede adoptar la forma de restricciones explícitas sobre los parámetros, un término de penalización/regularización o una prioridad bayesiana. El entrenamiento se convierte entonces en un compromiso entre ajustar bien los datos y satisfacer las restricciones. Usted ha mencionado dos ejemplos de esta estrategia para los problemas de regresión: 1) LASSO restringe o penaliza el parámetro $\ell_1$ de los pesos, lo que equivale a imponer una prioridad laplaciana. 2) La regresión Ridge restringe o penaliza la $\ell_2$ de los pesos, lo que equivale a imponer una prioridad gaussiana.
Las restricciones pueden producir una solución única, lo que es deseable cuando queremos interpretar el modelo para aprender algo sobre el proceso que generó los datos. También pueden mejorar el rendimiento predictivo al limitar la flexibilidad del modelo y reducir así la tendencia al sobreajuste.
Sin embargo, el mero hecho de imponer restricciones o garantizar que existe una solución única no implica que la solución resultante vaya a ser buena. Las restricciones sólo producirán buenas soluciones cuando sean realmente adecuadas para el problema.
Un par de puntos varios:
- La existencia de múltiples soluciones no es necesariamente problemática. Por ejemplo, las redes neuronales pueden tener muchas soluciones posibles distintas entre sí pero casi igual de buenas.
- La existencia de más variables que puntos de datos, la existencia de múltiples soluciones y el sobreajuste suelen coincidir. Pero se trata de conceptos distintos; cada uno puede darse sin los otros.
Hay muchas soluciones para una suma de términos igual a $3$ : $3=7-3-1$ , $3=1234-23451+22220$ por ejemplo.
Sin supuestos adicionales, no se puede obtener una solución muy significativa. En la práctica, se puede suponer que no hay más de dos términos distintos de cero (hipótesis de dispersión), y se puede restringir que sean positivos (hipótesis de positividad). En tal caso, se obtienen tripletas ordenadas como $(3, 0, 0)$ o $(2, 1, 0)$ un conjunto reducido que puede explorar como posibles soluciones "prácticas" que se pondrán a prueba.
Para eso sirve la regresión penalizada (como lasso o ridge): para encontrar un subconjunto manejable de soluciones "más sencillas", potencialmente más naturales hasta cierto punto. Utilizan la ley de la parsimonia, o navaja de Ockham por lo que si dos modelos explican la observación con la misma precisión, puede ser más prudente elegir el más compacto en términos de, por ejemplo, el número de parámetros libres. No se "explica" realmente una relación útil entre variables con modelos demasiado complicados.
Una cita atribuida a John von Neumann ilustra este contexto:
Con cuatro parámetros me cabe un elefante, y con que mueva la trompa.