7 votos

¿La dimensión de la matriz es importante para realizar un ACP válido?

Si $X$ $m × n$ matriz, donde $m$ es el número de tipos de medición (variables) y $n$ es el número de muestras, sería correcto para realizar un PCA en una matriz que ha $m \geq n$ ? Si no, favor de proporcionar algunos argumentos de por qué sería un problema.

Recuerdo haber escuchado que haciendo un análisis de este tipo no sería válida, pero la página de Wikipedia para la PCA no menciona un bajo $n/m$ relación como una limitación potencial para usar el método.

Por favor, tenga en cuenta que yo soy un biólogo y apuntar a una respuesta más práctica (si es posible).

7voto

Uri Puntos 111

PCA de las variables. Número de observaciones n es bajo en relación al número de variables. 1) aspecto Matemático. Cuando n<=m matriz de correlación es singular, lo que significa que algunos de los últimos m componentes de un principio cero de la varianza, es decir, que no exista. Esto no es un problema de la PCA, en general, ya que usted podría simplemente ignorarlos. Sin embargo, muchas de software (principalmente aquellos que une PCA y el Factor de Análisis en un comando o procedimiento) no va a permitir que usted tenga singular de la matriz de correlación. 2) Estadística de aspecto. Para tener su fiables los resultados que usted debe tener correlaciones confiables; que requiere de un considerable tamaño de la muestra, el cual siempre debe ser mayor que el número de variables. Dicen que, si usted tiene m=20 se debe tener n=100. Pero si usted tiene m=100, debes tener n=300 o así. Como m crece, mínimo recomendado n/m proporción disminuye.

3voto

cartoonist Puntos 153

Matriz de dimensión tener de por sí poco de todo con PCA validez. Lo que va a cambiar es la interpretación de sus datos y todo depende de cómo desea utilizar el resultado.

La PCA es muy potente para el uso a encontrar anomalys o valores atípicos en los datos. Tal vez usted ha realizado un experimento en dos días diferentes, utilizan diferentes máquinas en el experimento etc. Si el propósito es obtener una visión general de los datos de la PCA es una de la forma más eficiente de hacer que independientemente de cualquier n/m proporciones.

Si su interés principal es investigar los conglomerados o de las relaciones entre muestras, entonces #variables no son muy importantes. (Pero otro tipo de estadísticas sobre el resultado podría ser importante si #muestras son bajos).

Si usted mira las variables individuales, entonces van a ser menos fiable si usted tiene unos pocos ejemplos. Sin embargo, este es un problema que vas a tener con cualquier otro método. Si usted encontrar patrones entre las variables que hacen sentido, a continuación, usted definitivamente no debe hacer caso omiso de las conclusiones porque usted tiene un bajo n/m relación. Sin embargo, algunas observaciones son casi siempre problemático y debe conducir a la precaución en la interpretación y la más muestras de tener la menos importante es la #ejemplo de/#variable de relación.

2voto

MGOwen Puntos 122

No creo que obtendrás información útil de dicho análisis, como conocimiento en mi área (psicología) indica una proporción de 10; 1 a favor de n como condición previa. En algunas circunstancias (donde les son altos) usted puede conseguir lejos con 5 o 3 a 1, pero una proporción de menos de 1 es probablemente una receta para el desastre.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X