24 votos

PCA de no-Gaussiano de datos

Tengo un par de preguntas rápidas sobre PCA:

  • ¿El PCA asumir que el conjunto de datos es de Gauss?
  • ¿Qué sucede cuando se aplica un PCA inherentemente no lineal de los datos?

Dado un conjunto de datos, el proceso es a la primera significa la normalización, establece la varianza 1, tomar un SVD, reducir el rango, y por último mapa el conjunto de datos en la nueva reducido rango de espacio. En el nuevo espacio, cada dimensión corresponde a una "dirección" de la máxima varianza.

  • Pero es la correlación de ese conjunto de datos en el nuevo espacio siempre cero, o es que sólo se aplica a los datos que por su naturaleza Gaussiana?

Supongamos que tengo dos conjuntos de datos, "a" y "B", donde "a" corresponde a una muestra aleatoria de puntos tomados de una Gaussiana, mientras que "B" corresponde a los puntos en una muestra aleatoria de otra distribución (digamos de Poisson).

  • ¿Cómo funciona el PCA(a) compare a la PCA(B)?
  • Mirando los puntos en el nuevo espacio, ¿cómo puedo determinar que la PCA(A) corresponde a los puntos muestreados de una Gaussiana, mientras que la PCA(B), que corresponde a los puntos de muestreo de una distribución de Poisson?
  • Es la correlación de los puntos "A" 0?
  • Es la correlación de puntos en la "B" también 0?
  • Lo que es más importante, estoy pidiendo a la cuestión de "derecho"?
  • Debo mirar a la correlación, o hay otra métrica que debo considerar?

21voto

Sean Hanley Puntos 2428

Usted tiene un par de buenas respuestas aquí ya (+1 a ambos @Cam.Davidson.Pilon & @MichaelChernick). Déjame tirar un par de puntos que me ayudan a pensar sobre este asunto.

En primer lugar, PCA opera a través de la matriz de correlación. Por lo tanto, me parece que la pregunta importante es si tiene sentido utilizar una matriz de correlación para ayudarle a pensar acerca de sus datos. Por ejemplo, la correlación producto momento de Pearson evalúa el lineal de la relación entre dos variables; si las variables están relacionadas, pero no de forma lineal, la correlación no es un ideal de métricas para el índice de la intensidad de la relación. (Aquí es una buena discusión sobre la CV sobre la correlación y la no-normalidad de los datos.)

Segundo, creo que la manera más fácil de entender lo que está pasando con la PCA es que simplemente la rotación de sus ejes. Usted puede hacer más cosas, por supuesto, y por desgracia PCA se confunde con el análisis de factores (que sin duda tiene más cosas). Sin embargo, el viejo y simple de la PCA, sin campanas y silbatos, puede sintetizarse de la siguiente manera:

  • usted tiene algunos de los puntos representados en dos dimensiones sobre una hoja de papel cuadriculado;
  • usted tiene una transparencia con ejes ortogonales dibujado en ella, y un orificio en el origen;
  • de centro el origen de la transparencia (es decir, el agujero de alfiler) $(\bar x, \bar y)$ y coloque la punta de su lápiz a través del agujero de alfiler para mantenerlo en su lugar;
  • a continuación, gire la transparencia hasta los puntos (cuando indexado de acuerdo a la transparencia de los ejes del lugar de los originales) no están correlacionados.

Esto no es una metáfora perfecta para la PCA (por ejemplo, no nos cambies el tamaño de las desviaciones a 1). Pero la gente tiene la idea básica. El punto ahora es que use la imagen para pensar acerca de lo que el resultado se ve como si los datos no estaban de Gauss para comenzar; que le ayudará a decidir si este proceso fue la pena hacerlo. Espero que ayude.

14voto

user11867 Puntos 21

Me puede dar una solución parcial y mostrar una respuesta a tu segundo párrafo de la tercera cuestión, la relativa a si los nuevos datos se correlacionan. La respuesta corta es no, los datos en el nuevo espacio no está correlacionada. A ver, considere la posibilidad de $w_1$ $w_2$ dos únicos componentes de un principio. A continuación, $Xw_1$ $Xw_2$ son dos dimensiones en el nuevo espacio de los datos, $X$.

$$ {\rm Cov}( Xw_1, Xw_2 ) = E[ (Xw_1)^T(Xw_2) ] - E[Xw_1]^TE[Xw_2] $$ Como $w_i$ son constantes, el segundo término es 0 (como usted dijo que menospreciar $X$ previo). El primer término puede escribirse como $$ w_1^TE[X^TX]w_2 = {\rm Var}(X)w_1^Tw_2 = 0$$ as $w_i$ are orthonormal to each other, so the whole term is zero, assuming $Var(X)$ es finito. Todo esto era independiente de cualquier suposición acerca de la normalidad.

Creo que la confianza en la normalidad se reduce a todo el debate sobre la varianza. He aquí un argumento intuitivo: en Primer lugar, tenga en cuenta que la varianza es realmente una buena medida de la "difusión" para distribuciones simétricas. Pero puede fallar cuando consideramos sesgada o distribuciones asimétricas. Ahora recuerdo que la PCA intenta maximizar la varianza en la proyección de la dimensión. Si $X$ es normal, a continuación, $Xw$ es todavía normal, es decir, todavía simétrica y la varianza funciona bien. Pero si $X$ no es normal, como la de Poisson, la varianza de las $Xw$ no tiene que ser muy descriptivo.

Para dar un ejemplo donde la varianza (desviación estándar) romper, considere la posibilidad de la distribución de pareto. La varianza disminuye rápidamente como $\alpha$ crece, pero sólo porque los datos se inicia con el grupo alrededor de la pequeña media. Pero sabemos que podemos fácilmente ver grandes cambios de la distribución de pareto, algo que una pequeña variación no podría describir bien.

10voto

mat_geek Puntos 1367

No hay linealidad o la normalidad asumida en el PCA. La idea es simplemente la descomposición de la variación en un p-dimensional del conjunto de datos en componentes ortogonales que están ordenados de acuerdo a la cantidad de varianza explicada.

4voto

Jeff Busby Puntos 356

La lectura de la página 7 aquí:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

se nota que el PCA se supone que la distribución de lo que estamos explicando puede ser descrito por una media (de cero) y la varianza solo, que dicen que sólo puede ser la distribución Normal.

(Básicamente, además de la Cam de la respuesta, pero no tengo suficiente reputación para comentar : )

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X