6 votos

Significativa de la inferencia acerca de la estructura de datos basada en componentes con baja varianza en el PCA

Un montón de microbioma (ecología microbiana y de los papeles que me han llegado a través de utilizar el análisis de componentes principales (PCA) o el director de coordenadas de análisis (PCoA) para hacer conclusiones sobre los datos. Muchas de estas afirmaciones se basan en componentes/coordina con baja varianza, o por el uso de la mayor componentes para mostrar los patrones que no son visibles en la parte inferior componentes de un principio. A pesar de que he encontrado un par de preguntas que cubren la interpretación de la PCA/PCoA parcelas, no he encontrado ninguna discusión de si es o no significativo, se puede hacer una inferencia basada en componentes que explican la menor variación.

El gráfico siguiente es de un artículo que, en comparación con las bacterias del intestino en las mujeres embarazadas en diferentes momentos. Cada uno de los puntos representa una comunidad bacteriana. Parece como el T1 muestras están agrupados a la izquierda de la figura, pero es en este sentido cuando el componente varianzas son sólo el 8,9% y 4.5%, respectivamente?

enter image description here

Mi segunda pregunta es si tiene sentido hacer inferencias basadas en patrones visibles en el mayor de los componentes, cuando estos patrones no son visibles en la parte inferior.

Un buen ejemplo de esto es desde el Microbioma Humano coursera curso. El gráfico siguiente muestra cómo las comunidades bacterianas del clúster de diferentes partes del cuerpo. En este ejemplo, la vaginal comunidades (se muestra en color morado) cluster con los de la piel (que se muestra en verde).

enter image description here

Sin embargo, esta comunidad parece clúster por sí mismo cuando usted mira solamente en componentes principales de cuatro a seis. Es una práctica aceptable seguir mirando el resto de los componentes, cuando usted no está recibiendo grupos separados en los primeros? Para mí, esto se siente como usted está pescando para los resultados que usted desea ver.

enter image description here

Les agradecería mucho cualquier conocimiento acerca de este tema! Aquí están los temas relacionados que he encontrado aquí, que no acababa de responder a mi pregunta:

Fuentes:

6voto

Uri Puntos 111

Este tipo de pregunta hizo aparecer varias veces en la CV (usted tiene que navegar a través de PCA clustering de las preguntas). La respuesta corta a tu pregunta es sí, tiene sentido la inspección de junior dimensiones en la búsqueda de una estructura (como clusters) en sus datos. Pero, ¿por qué no? A menudo altos componentes que explican la mayor parte de la varianza son irrelevantes para el actualmente distinciones importantes en los datos. Yo podría cortar una barra de pan a lo largo; entonces, la 1ª PC de que elipsoide de no mostrar las dos mitades, pero PC2 o PC3 es probable que mostrar - la bimodalidad.

Uno debe recordar que los métodos de reducción de dimensionalidad (como PCA, PCoA) no están destinados a encontrar cúmulos o mapa de clases de la mejor manera. No reemplace el análisis de cluster o análisis discriminante, por lo tanto. Con PCA o igual técnicas, sólo puede la esperanza de que alguna de las dimensiones que descubrir la estructura para usted.

Sólo un ejemplo. Aquí hay dos diagramas de dispersión de la misma 2-datos de la clase. Una muestra de la primera PC dibujado en ella, el otro muestra la función discriminante dibujado. Ni PC1 o los restantes, ortogonal, PC2, por sí solo, no es bimodal. Discriminante es mucho mejor en ese aspecto, porque fue extraída para el propósito de captar la diferencia entre las dos clases.

Analíticamente lógico pasar a descubrir-entonces-estructura de la trama sería la realización de un análisis de cluster (o latente el análisis de clase) para las clases de formulario, a continuación, utilizar el análisis discriminante (o, tal vez, multidimensional INDSCAL de escala) la trama aquellos. Sin embargo, el análisis discriminante (DA) los resultados son, naturalmente, depende de las clases. PCA/PCoA resultados no son como son, sin supervisión, y son ciegos a la nonhomogeneity en los datos. Pero que es exactamente la razón (o al menos uno) de por qué muchas personas prefieren intento de PCA en lugar de DA en el fin de visualizar las diferencias de clase.

Usted dice, To me this feels like you are fishing for the results that you want to see. Este temor podría ser relevante en el contexto de múltiples pruebas de significación estadística y no en el actual contexto de análisis exploratorio de datos. Sí, EDA es "pesca" por las revelaciones de que puede parecer buena para usted, que es de lo que se trata. Por otro lado, si usted prefiere pensar de junior dimensiones de los datos de ruido (en lugar de los débiles, sino sustantivos) dimensiones, entonces, de hecho, la "pesca" la demanda es la adecuada. PCA en sí no separar la señal del ruido. Uno tiene que analizar las dimensiones estadísticamente si teóricamente se asemejan a ruido o señal, sino que implica la hipótesis acerca de los datos; para saludar el círculo vicioso. Pero, afortunadamente, con una muestra suficientemente grande, el ruido dimensiones son probablemente tramado real de las diferencias de clase, no falso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X