21 votos

¿Se requiere alguna cantidad de varianza captada por el PCA para poder realizar análisis posteriores?

Tengo un conjunto de datos con 11 variables y se hizo PCA (ortogonal) para reducir los datos. Al decidir el número de componentes que debía mantener, me resultó evidente, por mis conocimientos sobre el tema y por el diagrama de dispersión (véase más abajo), que dos componentes principales (CP) eran suficientes para explicar los datos y que los componentes restantes sólo eran menos informativos.

enter image description here
Diagrama de escala con análisis paralelo: valores propios observados (verde) y valores propios simulados basados en 100 simulaciones (rojo). El gráfico Scree sugiere 3 PCs, mientras que el análisis paralelo sólo sugiere los dos primeros PCs.

enter image description here

Como puede ver sólo 48% de la varianza podría ser capturada por las dos primeras PC.

El trazado de las observaciones en el primer plano realizado por los 2 primeros ordenadores personales reveló tres clústeres diferentes mediante la agrupación jerárquica aglomerativa (HAC) y la agrupación de K-means. Estos 3 clusters resultaron ser muy relevantes para el problema en cuestión y fueron coherentes con otros hallazgos también. Así que, excepto el hecho de que sólo se capturó el 48% de la varianza, todo lo demás estaba tremendamente bien.

Uno de mis dos revisores dijo: no se puede confiar mucho en estos resultados ya que sólo se pudo explicar el 48% de la varianza y es menos de lo requerido.

Pregunta
¿Hay alguna requerido ¿Qué valor tiene la varianza que debe captar el ACP para que sea válido? ¿No depende del conocimiento del dominio y de la metodología utilizada? ¿Puede alguien juzgar el mérito de todo el análisis basándose únicamente en el valor de la varianza explicada?

Notas

  • Los datos son 11 variables de genes medidos por una metodología muy sensible en biología molecular llamada Reacción en Cadena de la Polimerasa Cuantitativa en Tiempo Real (RT-qPCR).
  • Los análisis se realizaron con R.
  • Las respuestas de los analistas de datos basadas en su experiencia personal trabajando en problemas de la vida real en los campos del análisis de micromatrices, la quimiometría, los análisis espectométricos o similares son muy apreciadas.
  • Por favor, considere apoyar su respuesta con referencias en la medida de lo posible.

0 votos

La distribución de los valores propios es bastante importante para la teoría de las matrices aleatorias. La distribución Marcenko-Pastur se utiliza a veces para aplicaciones similares.

0 votos

¿Qué muestra el verde y qué muestran las líneas naranjas/marrones? Sólo hay en el eje.

0 votos

@usr11852, por favor, vea el pie de foto actualizado.

13voto

usεr11852 Puntos 5514

En cuanto a sus preguntas particulares:

¿Existe algún valor requerido de cuánta varianza debe capturar el ACP para que sea válido?

No, no lo hay (que yo sepa). Creo firmemente que no hay un valor único que se pueda utilizar; no hay un umbral mágico del porcentaje de varianza capturado. El artículo de Cangelosi y Goriely : Retención de componentes en el análisis de componentes principales con aplicación a datos de microarray de ADNc da una visión general bastante agradable de media docena de estándares reglas generales para detectar el número de componentes de un estudio. (Diagrama de escala, proporción de la varianza total explicada, regla del valor propio medio, diagrama del valor propio logarítmico, etc.) Como reglas generales No me fiaría mucho de ninguno de ellos.

¿No depende del conocimiento del dominio y de la metodología en uso?

Lo ideal es que debe ser dependiente, pero hay que tener cuidado con lo que se dice y lo que se quiere decir.

Por ejemplo: En acústica existe la noción de diferencia apenas perceptible ( JND ). Supongamos que está analizando una muestra de acústica y que un PC concreto tiene una variación a escala física muy por debajo de ese umbral JND. Nadie puede argumentar fácilmente que para una aplicación de acústica usted debe han incluido ese PC. Se estaría analizando un ruido inaudible. Puede que haya razones para incluir ese PC, pero esas razones deben presentarse y no al revés. ¿Son nociones similares a la JND para el análisis de RT-qPCR?

Del mismo modo, si un componente parece un polinomio de Legendre de 9º orden y usted tiene pruebas sólidas de que su muestra consiste en protuberancias gaussianas simples, tiene buenas razones para creer que está modelando de nuevo una variación irrelevante. ¿Qué muestran estos modos ortogonales de variación? ¿Qué es lo que está "mal" con el 3er PC en su caso, por ejemplo?

El hecho de que usted diga " Estos 3 grupos resultaron ser muy relevantes para el problema en cuestión " no es realmente un argumento de peso. Podría simplemente dragado de datos (que es un mal cosa). Hay otras técnicas, por ejemplo Isomaps y incrustación localmente lineal que también son muy buenos, ¿por qué no usarlos? ¿Por qué eligió PCA específicamente?

La consistencia de sus hallazgos con otros hallazgos es más importante, especialmente si estos hallazgos se consideran bien establecidos. Profundice en este aspecto. Intente ver si sus resultados coinciden con los hallazgos de PCA de otros estudios.

¿Puede alguien juzgar el mérito de todo el análisis basándose únicamente en el valor de la varianza explicada?

En general, no se debe hacer eso. Sin embargo, no piense que su revisor es un cabrón ni nada por el estilo; el 48% es, en efecto, un porcentaje pequeño para retenerlo sin presentar justificaciones razonables.

0 votos

Gracias por su respuesta. La RT-qPCR no tiene nada de especial como la JND. De hecho, la RT-qPCR es sólo la técnica con la que medimos las variables genéticas en sí. Probablemente te referías a los PCs que son las nuevas variables hechas de la combinación lineal de los 11. Teniendo en cuenta otras variables descriptivas, los primeros 2 PCs resultaron estar relacionados con las células de la respuesta inmune, mientras que el 3er PC no. Por lo demás, no hay nada malo en la 3ª PC.

0 votos

Echaré un vistazo a las técnicas de dragado de datos y aprenderé más sobre ellas. Pero, ¿sabes por casualidad si esto ha sido implementado por algún paquete de R?

1 votos

@doctorado: La idea es evitar el dragado de datos. Lo siento pero no conozco ningún paquete que lo compruebe explícitamente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X