24 votos

Número de características y número de observaciones

Hay documentos/libros/ideas acerca de la relación entre el número de cuenta y el número de observaciones que uno necesita para formar un "robusto" clasificador?

Por ejemplo, supongamos que tiene 1000 características y 10 observaciones a partir de dos clases como un conjunto de entrenamiento, y otros 10 observaciones como un conjunto de pruebas. Yo a entrenar el clasificador de la X y me da el 90% de sensibilidad y especificidad del 90% en el conjunto de pruebas. Digamos que estoy contento con esta precisión y en base a eso puedo decir que es un buen clasificador. Por otro lado, he aproximar una función de 1000 variables con 10 puntos, por lo que puede parecer no muy... robusto?

3voto

John Richardson Puntos 1197

Sospecho que no hay tales reglas de oro será de aplicación general. Considere la posibilidad de un problema con dos de gauss clases centradas en $\vec{+1}$$\vec{-1}$, tanto con la matriz de covarianza de $0.000001*\vec{I}$. En ese caso, sólo se necesitan dos muestras, una de cualquiera de las clases para obtener de clasificación perfecta, casi sin importar el número de características. En el otro extremo del espectro, si ambas clases están centradas en el origen con la covarianza $\vec{I}$, ninguna cantidad de datos de entrenamiento se va a dar un útil clasificador. Al final del día, la cantidad de muestras que usted necesita para un determinado número de características depende de cómo los datos son distribuidos, en general, las características más tienes, más los datos que se necesitan para describir adecuadamente la distribución de los datos (exponencial en el número de cuenta si tienes la mala suerte - ver la maldición de la dimensionalidad mencionado por Zach).

Si el uso de regularización, a continuación, en principio, (un límite superior a) la generalización de error es independiente del número de características (ver Vapnik a trabajar en la máquina de soporte vectorial). Sin embargo deja el problema de encontrar un buen valor para el parámetro de regularización (validación cruzada es útil).

3voto

pauly Puntos 932

Uno de mis libros absolutamente más valiosos durante los años ha sido Tinsley y manual de Brown. Hay muchos lugares en el libro donde se discute este tema, por distintos autores contribuyentes.

2voto

Boris Tsirelson Puntos 191

Lo que he encontrado aquí, es la maldición de la dimensionalidad o el de p>>n problema (donde p es la predicción y n observaciones). Muchas han sido las técnicas desarrolladas a lo largo de los años para resolver este problema. Usted puede utilizar AIC o BIC para penalizar a los modelos con más predictores. Usted puede elegir al azar conjuntos de variables y evaluar su importancia mediante validación cruzada. Usted puede utilizar ridge-regresión, el lazo, o la red elástica para la regularización. O puede elegir una técnica, como una máquina de soporte vectorial o bosque aleatorio que trata bien con un gran número de predictores.

Honestamente, la solución depende de la naturaleza específica del problema que están tratando de resolver.

1voto

ESRogs Puntos 1381

Usted es probablemente más de impresión de la clásica modelado, el cual es vulnerable a los métodos de Runge paradoja-como los problemas y por lo tanto requieren de cierta parsimonia de optimización en el post-procesado.
Sin embargo, en el caso de la máquina de aprendizaje, la idea de incluir robustez como un objetivo de la optimización de modelo es sólo el núcleo de todo el dominio (a menudo expresada como la precisión en los invisibles de datos). Así que, bueno, siempre y cuando usted sabe que su modelo funciona bien (por ejemplo de CV), probablemente, no hay punto de molestar.

El verdadero problema con $p\gg n$ en el caso de ML son los atributos irrelevantes -- sobre todo porque algunos de ellos pueden ser más útil para la regeneración de la decisión de la verdaderamente relevante debido a algunas fluctuaciones aleatorias. Obviamente, este problema no tiene nada que ver con parsimonia, pero, igual que en el caso clásico, termina en la terrible pérdida de la generalización de energía. Cómo resolver es una historia diferente, llamada función de selección -, pero la idea general es la de pre-proceso de los datos para expulsar el ruido, en vez de poner limita en el modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X