Me lo han dicho (leído) muchas veces, pero nunca entendí por qué es malo que la cantidad de dimensiones en sus datos o la cantidad de variables explicativas en su modelo sean más altas que la cantidad de muestras. ¿Por qué es este el caso?
Respuestas
¿Demasiados anuncios?Primero de todo, este no es un "duro" en el límite de la forma en que un modelo con un tamaño de muestra n= número de variables p es mala, y la adición de un ejemplo o caso (modelo con n=p+1) se convertiría en un buen modelo. La regla más bien se centra en la idea de que la calidad del modelo depende del tamaño de la muestra en comparación con el número de variables, como por ejemplo, se opuso a la calidad de los resultados de la validación de la cual depende, a menudo, el número absoluto de casos de prueba.
Usted puede pensar de sus datos, ya que abarca un p-dimensiones del espacio: cada variable se abre una nueva dirección. El modelo describe los puntos (muestras) en este espacio; a menudo se trata de algún tipo de (hiper)de la superficie.
En esa descripción, se puede pensar de un modelo de calidad como la respuesta a cómo puede ser sobre la hipersuperficie: que depende de la muestra densidad. El más estrictos son los puntos de datos que usted sabe, más puede ser sobre la superficie.
En términos muy generales, esto lleva a la conclusión de que con el creciente número de variables que pueden necesitar un crecimiento exponencial en el número de muestras a fin de tener la misma certeza en el ajuste del modelo. Sin embargo, si se imponen restricciones en el modelo (es decir, reducir los grados de libertad), tales como permitir que los aviones sólo (modelo lineal), puede reducir el crecimiento necesario en el tamaño de la muestra (por ejemplo, lineal por lineal de los modelos).
Sin embargo, para tamaños de muestra n≤p, incluso un modelo lineal no es ni siquiera único más: existen infinitos planos que encajan perfectamente en los puntos dados (incluyendo su ruido) en p dimensiones.
La adición de más muestras primero que hará el modelo matemáticamente único y, a continuación, sobredeterminada (de modo que los grados de libertad que se queda después de ajustar el modelo que puede ser utilizado para estimar y reducir la incertidumbre). Por supuesto, el paso de indeterminado a lo determinado (en n=p+1) es una mejora enorme. Pero la mejora de la a n=p+2 que por primera vez da a una (todavía muy aproximada) la idea acerca de la incertidumbre es casi tan grande en mi humilde opinión. Por lo tanto, el modelo mejorará gradualmente por cada nuevo caso.
Los Elementos de Aprendizaje Estadístico dar una buena discusión en el capítulo 2.
Para comentar sobre la respuesta de @cbeleites, hay excepciones a la regla (más o menos). Específicamente, a menudo sus predictores están correlacionados, por lo que pueden ser reemplazados por una sola variable; o de lo contrario muchos de los predictores pueden ser eliminados. Por lo tanto, aunque no puede crear, digamos, un modelo de regresión lineal sencillo conn≤p, puede trabajar con conjuntos de datos que tienen muchas más variables que muestras. Este es un caso para estrategias de reducción de dimensión, selección de variables y otras herramientas relacionadas.