5 votos

¿Por qué hay que tomar la transposición de los datos para el ACP?

Tengo el siguiente conjunto de datos: hemos medido la temperatura 1000 veces en 9 estaciones diferentes de todo el país. Los datos están representados en una matriz con 9 filas y 1000 columnas. Escribí mi propia implementación de PCA y tengo que reducir la dimensionalidad a 3. Lo hice y funciona pero no entiendo algunas cosas.

En primer lugar, algo de terminología. En la wikipedia he leído que los términos variable y observación se suelen utilizar. En mi caso, las observaciones serían los valores de temperatura y las variables las 9 estaciones?

¿Por qué tengo que tomar la transposición de la matriz, obteniendo un $1000\times 9$ matriz, antes de hacer el PCA?

Básicamente lo que tengo que hacer es intentar mantener la información del conjunto de datos original utilizando únicamente los valores de temperatura de $3$ de $9$ ¿Estaciones?

6voto

zowens Puntos 1417

Nosotros no necesitan .

Es una convención común y antigua en estadística que las matrices de datos tienen las observaciones en filas y las variables en columnas. En su caso, tiene efectivamente $1000$ observaciones de $9$ variables. Así que lo normal sería organizar los datos en una matriz de $1000\times 9$ tamaño. La mayoría de las implementaciones estándar de PCA esperan obtener una entrada de este tipo.

Por ejemplo, pca() en Matlab dice lo siguiente en su página de ayuda :

coeff = pca(X) devuelve los coeficientes de los componentes principales, también conocidos como cargas, para el $n$ -por- $p$ matriz de datos X . Filas de X corresponden a las observaciones y las columnas a las variables. La matriz de coeficientes es $p$ -por- $p$ .

Pero si usted escribe su propio código para PCA, es libre de seguir una convención opuesta y almacenar las variables en filas. Yo mismo lo he hecho a menudo de esta manera.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X