Tengo un conjunto de datos con 11 variables y se hizo PCA (ortogonal) para reducir los datos. Al decidir el número de componentes que debía mantener, me resultó evidente, por mis conocimientos sobre el tema y por el diagrama de dispersión (véase más abajo), que dos componentes principales (CP) eran suficientes para explicar los datos y que los componentes restantes sólo eran menos informativos.
Diagrama de escala con análisis paralelo: valores propios observados (verde) y valores propios simulados basados en 100 simulaciones (rojo). El gráfico Scree sugiere 3 PCs, mientras que el análisis paralelo sólo sugiere los dos primeros PCs.
Como puede ver sólo 48% de la varianza podría ser capturada por las dos primeras PC.
El trazado de las observaciones en el primer plano realizado por los 2 primeros ordenadores personales reveló tres clústeres diferentes mediante la agrupación jerárquica aglomerativa (HAC) y la agrupación de K-means. Estos 3 clusters resultaron ser muy relevantes para el problema en cuestión y fueron coherentes con otros hallazgos también. Así que, excepto el hecho de que sólo se capturó el 48% de la varianza, todo lo demás estaba tremendamente bien.
Uno de mis dos revisores dijo: no se puede confiar mucho en estos resultados ya que sólo se pudo explicar el 48% de la varianza y es menos de lo requerido.
Pregunta
¿Hay alguna requerido ¿Qué valor tiene la varianza que debe captar el ACP para que sea válido? ¿No depende del conocimiento del dominio y de la metodología utilizada? ¿Puede alguien juzgar el mérito de todo el análisis basándose únicamente en el valor de la varianza explicada?
Notas
- Los datos son 11 variables de genes medidos por una metodología muy sensible en biología molecular llamada Reacción en Cadena de la Polimerasa Cuantitativa en Tiempo Real (RT-qPCR).
- Los análisis se realizaron con R.
- Las respuestas de los analistas de datos basadas en su experiencia personal trabajando en problemas de la vida real en los campos del análisis de micromatrices, la quimiometría, los análisis espectométricos o similares son muy apreciadas.
- Por favor, considere apoyar su respuesta con referencias en la medida de lo posible.
0 votos
La distribución de los valores propios es bastante importante para la teoría de las matrices aleatorias. La distribución Marcenko-Pastur se utiliza a veces para aplicaciones similares.
0 votos
¿Qué muestra el verde y qué muestran las líneas naranjas/marrones? Sólo hay en el eje.
0 votos
@usr11852, por favor, vea el pie de foto actualizado.
0 votos
Debe tener en cuenta el mayor número de componentes principales que tengan valores propios superiores a 1. Creo que en su caso el número es 4.