Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

5 votos

¿Por qué es malo si el número de dimensiones / factores> tamaño de la muestra?

Me lo han dicho (leído) muchas veces, pero nunca entendí por qué es malo que la cantidad de dimensiones en sus datos o la cantidad de variables explicativas en su modelo sean más altas que la cantidad de muestras. ¿Por qué es este el caso?

4voto

cbeleites Puntos 12461

Primero de todo, este no es un "duro" en el límite de la forma en que un modelo con un tamaño de muestra n= número de variables p es mala, y la adición de un ejemplo o caso (modelo con n=p+1) se convertiría en un buen modelo. La regla más bien se centra en la idea de que la calidad del modelo depende del tamaño de la muestra en comparación con el número de variables, como por ejemplo, se opuso a la calidad de los resultados de la validación de la cual depende, a menudo, el número absoluto de casos de prueba.

Usted puede pensar de sus datos, ya que abarca un p-dimensiones del espacio: cada variable se abre una nueva dirección. El modelo describe los puntos (muestras) en este espacio; a menudo se trata de algún tipo de (hiper)de la superficie.
En esa descripción, se puede pensar de un modelo de calidad como la respuesta a cómo puede ser sobre la hipersuperficie: que depende de la muestra densidad. El más estrictos son los puntos de datos que usted sabe, más puede ser sobre la superficie.

En términos muy generales, esto lleva a la conclusión de que con el creciente número de variables que pueden necesitar un crecimiento exponencial en el número de muestras a fin de tener la misma certeza en el ajuste del modelo. Sin embargo, si se imponen restricciones en el modelo (es decir, reducir los grados de libertad), tales como permitir que los aviones sólo (modelo lineal), puede reducir el crecimiento necesario en el tamaño de la muestra (por ejemplo, lineal por lineal de los modelos).

Sin embargo, para tamaños de muestra np, incluso un modelo lineal no es ni siquiera único más: existen infinitos planos que encajan perfectamente en los puntos dados (incluyendo su ruido) en p dimensiones.
La adición de más muestras primero que hará el modelo matemáticamente único y, a continuación, sobredeterminada (de modo que los grados de libertad que se queda después de ajustar el modelo que puede ser utilizado para estimar y reducir la incertidumbre). Por supuesto, el paso de indeterminado a lo determinado (en n=p+1) es una mejora enorme. Pero la mejora de la a n=p+2 que por primera vez da a una (todavía muy aproximada) la idea acerca de la incertidumbre es casi tan grande en mi humilde opinión. Por lo tanto, el modelo mejorará gradualmente por cada nuevo caso.

Los Elementos de Aprendizaje Estadístico dar una buena discusión en el capítulo 2.

1voto

Gmaster Puntos 21

Para comentar sobre la respuesta de @cbeleites, hay excepciones a la regla (más o menos). Específicamente, a menudo sus predictores están correlacionados, por lo que pueden ser reemplazados por una sola variable; o de lo contrario muchos de los predictores pueden ser eliminados. Por lo tanto, aunque no puede crear, digamos, un modelo de regresión lineal sencillo connp, puede trabajar con conjuntos de datos que tienen muchas más variables que muestras. Este es un caso para estrategias de reducción de dimensión, selección de variables y otras herramientas relacionadas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X