8 votos

Estrella Coordenadas vs análisis de componentes principales

Estoy preparando una presentación para un curso universitario en "análisis Visual de Datos". Y uno de mis temas es la "Estrella de Coordenadas" visualización. Estrella De Coordenadas

Como Estrella de Coordenadas realizar una transformación de los datos de alta dimensión, y el conocido PCA técnica lo hace demasiado, me pregunto si la PCA puede ser imitado por la Estrella de Coordenadas? Creo que de la reorganización de los ejes de coordenadas en una manera que ellos representan una combinación lineal de las variables originales? Pero esto es sólo una idea. Alguien puede confirmar o desmentir esto?

9voto

jldugger Puntos 7490

PCA y "estrella de coordenadas" hacer cosas diferentes. Porque la estrella coordenadas de estandarizar todos los valores, una comparación justa sería aplicar PCA a una matriz de correlación (en lugar de la matriz de covarianza), que es otra forma de estandarizar los valores.

  • PCA identifica un sistema de coordenadas adaptado a la forma de los datos, mientras que la estrella de coordenadas se basan en las coordenadas proporcionadas originalmente en los datos.

    Esto hace que la PCA mucho más flexible para descubrir las relaciones entre los datos. "Estrella de coordenadas" son, en contraste, no mucho más de una gráfica 2D de univariante de la información.

  • PCA (cuando se realiza en una matriz de correlación) utiliza los medios de los datos para el origen y sus desviaciones estándar para las escalas. Estrella coordina el uso de los datos mínimos para el origen y sus rangos de escalas.

    Los mínimos y rangos son mucho más sensibles a los datos erróneos que las desviaciones estándar son, haciendo que la estrella de coordenadas menos adecuados para el propósito general de exploración de datos.

Como tal, cada uno tiene sus puntos fuertes-a pesar de las fortalezas de la estrella de coordenadas relativas a la PCA son difíciles de entender.

Como un ejemplo, considere estos dos conjuntos de datos 3D. Cada uno consta de 300 puntos y en cada uno la nube de puntos tiene una muy plano de la elíptica"pancake" de la forma. (Los valores propios de cada matriz de correlación son cerca de $\{2, 1, .01\}$.) La fila superior de la figura presenta las matrices de correlación, la segunda fila se muestra una vista de las nubes de puntos en pseudo 3D (orientadas aproximadamente a la captura de los dos más grandes de componentes principales), y la fila inferior es la "estrella coordenadas" la imagen de los mismos puntos.

Figure

Debido a las diferentes orientaciones de estas nubes de puntos en relación a la original ejes de coordenadas de la estrella coordenadas de las parcelas son totalmente diferentes. Esto es característico: star coordenadas dar (muy limitada) información acerca de las coordenadas originales, mientras que la PCA revela las relaciones entre las coordenadas.

También se puede ver que la estrella coordenadas son una especie de "accidental" de proyección: a veces van a capturar grandes de componentes principales de los datos, como en el lado izquierdo de la versión, y a veces van a la captura de grandes y pequeños componentes (como en la mano derecha), y en otras ocasiones (no ilustrado) que captura sólo componentes pequeños (y todos los puntos se agrupan densamente cerca del origen, revelando casi nada).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X