10 votos

¿Por qué puede aumentar el número de características reducir rendimiento?

Estoy tratando de obtener una intuición de por qué el aumento del número de características podría reducir el rendimiento. Actualmente estoy usando un LDA clasificador que se realiza mejor bivariately entre ciertas características, pero peor cuando se mira más características. A mi la exactitud de la clasificación se realiza mediante un estratificado de 10 veces xval.

Hay un caso sencillo en el que cuando un clasificador que funcionaría mejor univariately de bivaraiately para ganar un poco de física espacial o de la intuición de lo que está sucediendo en estas dimensiones superiores?

10voto

RoMa Puntos 401

Consulte "Un problema de la dimensionalidad: Un ejemplo simple", muy corto y muy viejo artículo de G. V. Tronco. Él se considera un problema de dos clases, con Gaussiano clase condicional distribuciones donde las características son todos relevantes, pero con la disminución de la relevancia. Él muestra que la tasa de error de un clasificador entrenado en una muestra finita converge a 0,5, mientras que el error de Bayes se aproxima a 0, como el número de funciones, aumenta.

5voto

Erogol Puntos 379

Esto se denomina como la "Maldición De la Dimensionalidad". No sé, ¿hay alguna razón específica para la LDA, pero en general tiene mucho dimensión en función del vector de resultados con la necesidad de hacer más compleja la decisión de los límites. Tener complejo de límites también viene con una pregunta "¿En qué grado?", ya que consideramos más ajustada. Como otro punto, con dimensiones adicionales el algoritmo de aprendizaje de la complejidad es creciente. Por lo tanto, trabajando con relativamente lento algoritmo de aprendizaje con gran característica de vector hace su trabajo de caso peor. Además con la dimensión que podría haber aumento de la posibilidad ti han correlacionado las características en las que no es bueno para un montón de algoritmos de aprendizaje como redes Neuronales o algunos otros.

Usted puede contar otras razones que están bajo la "Maldición De la Dimensionalidad", pero el hecho es que tener un número suficiente de casos con conciso función vectorial que se procedió a distancia por alguna característica de selección de las rutinas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X