6 votos

¿Cuándo debe usarse la reducción dimensional?

Ayer me preguntó esta cuestión en la que me había 180 sujetos con 500 características de cada uno. Mientras yo estaba seguro de que dimensiones-reducción es un debe en este caso (500 características), la mayoría de las respuestas que he recibido, dijo que 500 no son demasiados.

Entonces, Mi pregunta es: ¿hay alguna regla de oro cuando se debe utilizar dimensiones-reducción antes de la clasificador? Cómo muchas de las características es demasiado? (Supongo que es depende de la relación entre el número de temas y características. ¿No es así?)

8voto

vignesh Puntos 6

En vez de pedir "al uso" veamos "¿por qué usar" - yo creo que esta muy bien que nos lleva a el "cuando" de respuesta.

Mi entendimiento es que la reducción de dimensionalidad se realiza principalmente a

  • la velocidad de aprendizaje (muchas de las características conducir a más cálculos) y comprimir los datos (muchas de las características a tomar un montón de disco/espacio de memoria). En esta vista, se debe reducir dimensiones sólo si el tiempo de funcionamiento o el tamaño de los datos es "inaceptable", y reducir el espacio de características hasta que las cosas se "aceptable".

"Inaceptable" es, obviamente, que se define únicamente por la tarea a la mano. Las computadoras modernas pueden manejar una gran cantidad de cálculos y almacenar una gran cantidad de datos - que es la razón por la que creo que usted dijo que 500 características no es demasiado. Hay algunas otras razones para la reducción de dimensionalidad puedo pensar:

  • la inversión de matrices problemas - un algoritmo puede construir una matriz de conjunto de la muestra, y si algunas de las funciones son interdependientes, esto hace que el marix no es invertible. Pero en la práctica no es un gran problema y consigue burlar a través de Moore-Penrose pseudoinverse así que, en mi opinión, esta no debe ser la razón para la reducción de dimensionalidad.

  • visualización de datos - la regla de oro aquí es para extraer características hasta que te dejan con un máximo de dos, debido a una deficiencia en la cognición humana :)

4voto

Upul Puntos 372

Que yo sepa, no tenemos una regla general con respecto al uso de la reducción dimensional. También estoy pensando que, depende de la relación entre el número de temas y características. También de otros factores tales como la potencia de procesamiento del sistema que se va a implementar el algoritmo de aprendizaje, tener en cuenta.

Además, la reducción dimensional de técnicas tales como la escasa auto-codificador son capaces de encontrar patrones interesantes en los datos, por lo tanto mejorar la precisión de los algoritmos. Por lo tanto, uno podría pensar que siempre es mejor utilizar una reducción dimensional método.

2voto

neuron Puntos 181

Vi otro caso de uso muy interesante para la reducción de la dimensionalidad en un video de stanford hace un tiempo. Había analizado un grupo de gente con un escáner de cuerpo y utiliza para generar modelos 3d. Después de que tenían un montón de datos que aplicaban reducción de dimensionalidad para reducir la cantidad de variables que se tuvieron que trabajar con. Y modificar las variables cambiar rápidamente el altura/peso/sexo de los modelos 3d resultantes.

2voto

Toto Puntos 508

El número de cuenta no es la única razón para la reducción. También es importante revisar cuáles son estas características.

Aunque se trata de una ciencia de la computación orientada al sitio, los problemas de memoria y tiempo de ejecución son relevantes pero no debería ser el único foco de muchas de las tareas de aprendizaje.

Al momento de seleccionar su cuenta, usted debe tener algún tipo de hipótesis acerca de lo que es relevante para la tarea en mano. Si usted selecciona las características de una manera aleatoria, o de una manera que no está relacionado con la tarea que desea aprender, es ACEPTAR para continuar utilizando "al azar" métodos para reducir este número. Pero si había algunas hipótesis acerca de las características, me gustaría tratar de mantener a tantos de ellos como sea posible en el proceso de aprendizaje.

En general, la mejor comprensión que tiene y la mejor planificación de su tarea respecto a cuáles son las mejores características para aprender, mejor serán los resultados.

2voto

Ludwi Puntos 188

Si la complejidad de su modelo o clasificador capacitado en ésos n cuenta con escalas mal (por ejemplo, el número de parámetros crece como O(n^3)), luego características incluso 500 pueden ser un problema. No sólo porque la optimización lleva más tiempo, sino también porque puede no tener suficientes datos para restringir sus parámetros, que conducirían al desbordamiento.

Al reducir la complejidad del modelo, reducción de la dimensionalidad por lo tanto puede también actuar como un medio de regularización.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X