11 votos

Cómo proyecto de grandes dimensiones en un espacio de dos dimensiones del plano?

Tengo un conjunto de puntos de datos en un espacio N-dimensional. Además, también tengo un centroide, en este mismo espacio N-dimensional. Hay enfoques que pueden permitir que me proyecto, estos puntos de datos en un espacio de dos dimensiones, manteniendo su distancia relativa de la información en el espacio original. Es PCA el correcto?

7voto

David Robles Puntos 116

Como se mencionó en la respuesta anterior, hay un número de métodos de reducción de dimensionalidad, y una cosa importante a tener en cuenta es ¿qué estás tratando de representar - ¿está usted interesado en la distancia Euclídea medidas? O una métrica de similitud entre las muestras?

Para los primeros, el PCA puede ser apropiado. Se utiliza comúnmente con las medidas continuas, tales como las mediciones de las muestras (animales, plantas, etc...). Me gustaría ver en el más moderno menciona en la anterior respuesta, aunque.

Para el último, donde usted podría estar tratando de comparar la similitud con un no-euclidiana distancia métrica, un buen par de métodos existentes, tales como Componentes de un Principio de Ordenación (PCoA) y No métricas de Escalamiento Multidimensional (NMDS). Un ejemplo de uso de estas es cuando se comparan las comunidades ecológicas entre las diferentes áreas, y que tienen un número de diferentes tipos de organismos que se han encontrado. Así, los datos son el "recuento" de los datos. Hay una serie de métricas de similitud como Jaccard, Sorensen, de Bray-Curtis, que efectivamente permiten estimar la similitud de los sitios están en su composición de los organismos. PCoA y NMDS, básicamente, permiten trazar las muestras (sitios) representar a la ecológica distancia (similitud), y tiene una puntuación de sitio en cada eje.

Hay un montón de buenos libros y otros recursos para el análisis multivariado. La búsqueda para la "Ordenación" en Google. También, hay un paquete de R llamado 'veganos' que es realmente bueno para llevar a cabo una gran parte de este trabajo.

3voto

Leeor Puntos 269

Un marco general que solucione su problema se llama reducción de dimensionalidad. Le gustaría a los datos del proyecto de N dimensiones a 2 dimensiones, mientras que la preservación de la "información esencial" en sus datos. El método más adecuado depende de la distribución de los datos, es decir, el N-dimensional colector. PCA se ajuste a un plano utilizando el criterio de mínimos cuadrados. Esto probablemente va a funcionar mal para el "brazo de gitano" ejemplo: brazo de gitano.

Métodos más modernos incluyen Kernel PCA, LLE, la difusión de los mapas y la escasa diccionario de representaciones. Sobre la distancia, la preservación, algunos métodos pueden preservar la no-distancias euclídeas.

0voto

Chris Magnuson Puntos 217

Tu problema suena como un libro de texto de la aplicación para el escalamiento multidimensional. Una buena introducción se puede encontrar aquí: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

Por supuesto, usted puede tratar de PCA. Pero PCA no tiene la intención de mantener la distancia relativa de la información en el espacio original.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X