9 votos

¿Qué hace el ACP con los datos autocorrelacionados?

Sólo porque algún corresponsal planteó una pregunta interesante sobre los métodos de cálculo de la autocorrelación, me puse a jugar con ella, casi sin ningún conocimiento sobre series temporales y autocorrelación.

El corresponsal organizó sus datos ( $32$ puntos de datos de una serie temporal) desplazados por un desfase temporal cada uno de ellos, de modo que tenía una matriz de $32\times32$ datos (según le entendí) donde la primera fila son los datos originales, la segunda fila los datos desplazados por $1$ unidad de tiempo, la siguiente fila por otra y así sucesivamente. Realicé esto adicionalmente pegando el extremo a la cola, haciendo así conjuntos de datos "circulares".

Luego, sólo para ver qué puede salir de ahí, calculé la matriz de correlaciones y a partir de ella los componentes principales. Sorprendentemente obtuve la imagen de una frecuencia-descomposición, y (de nuevo con otros datos) una frecuencia, digamos que con un período en el $32$ datos estaba en el primer componente principal, y el que tenía cuatro períodos estaba en el segundo PC y así sucesivamente (obtuve $6$ PC's "relevantes" con valor propio $>1$ ). Primero pensé que esto depende de los datos de entrada, pero ahora asumo que es sistemáticamente así por la construcción especial del conjunto de datos con sus desplazamientos circulares (también conocido como matriz "Toeplitz"). Las rotaciones de la solución PC a varimax u otros criterios de rotación dieron resultados ligeramente diferentes, y posiblemente interesantes, pero en general parecen proporcionar tal descomposición de la frecuencia.

Aquí hay un enlace a fotos que he hecho de la $32$ -Las curvas se hacen simplemente a partir de las cargas de la matriz de datos: una curva es la carga de un factor. La curva de la primera PC1 debería mostrar las mayores amplitudes (aproximadamente porque lleva la mayor suma de cuadrados de carga)

Preguntas:

  • P1: ¿Es una característica por diseño? (de PCA con este tipo de conjunto de datos)
  • P2: ¿Este enfoque es realmente utilizable de alguna manera para una aproximación seria al análisis de frecuencia/longitud de onda?

[actualización] aquí está el conjunto de datos (espero que salga copiable para usted)

-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3

0 votos

Gracias @amoeba y por el lote de edición. Sólo había visto dos errores que quería editar después, ¡la pregunta queda mucho más bonita ahora!

4voto

zowens Puntos 1417

Permítame convertir mi comentario anterior en una respuesta.

¿Imagina que las filas de su matriz de datos son las variables o las muestras? Voy a suponer que son las muestras: es decir, tienes $n=32$ diferentes series temporales (muestras).

Entonces, si todos los $n=32$ filas son idénticas, pero sólo desplazadas circularmente por $1$ posición cada uno, entonces el $n\times n$ La matriz Gram de sus datos, que consiste en productos de puntos entre todos los pares de filas, tendrá una estructura Toeplitz: valores altos cerca de la diagonal y que disminuyen gradualmente hasta llegar a valores cero lejos de ella. Las matrices de Toeplitz tienen modos de Fourier consecutivos como sus vectores propios (y los vectores propios de la matriz de Gram son componentes principales, hasta la escala), por lo que a su Q1: no es de extrañar que obtenga ondas sinusoidales de frecuencias crecientes como PC.

Ni idea de si puede ser útil (Q2). En mi experiencia, tiende a aparecer como un artefacto molesto. Es decir, la gente tiene algunos datos, obtiene algo parecido a los modos de Fourier a partir del PCA y empieza a preguntarse qué podrían significar, cuando simplemente se deben a algunos desplazamientos temporales en la serie temporal original.

0 votos

Bueno, muy bonito, ¡gracias! Sí, he pensado en los datos a lo largo de las filas. Q2 viene también porque nunca he entendido hasta hoy cómo funciona exactamente el análisis de Fourier - y por accidente esto podría haber sido un paso para conseguir un poco de intuición sobre (pero esta vaga esperanza realmente parece ser infructuosa aquí ...)

0 votos

Por cierto, ¿te importaría compartir tu serie temporal de 32 valores? Me gustaría insertar una figura que muestre la matriz Gram, y podría hacerlo directamente con tus datos.

0 votos

¿Has visto el enlace de mi pregunta? Redirige a una página web que he creado con exce.l Tiene 4 o 5 subpáginas, que son seleccionables por "firefox" en mi instalación mediante un clic en la barra de pestañas en la parte inferior de la pantalla. La primera subpágina muestra la lista de datos. Sin embargo, en sentido vertical: hay que tomarla como primera fila de una nueva tabla y añadir 31 filas mientras se va avanzando hacia la derecha. Si eso es un inconveniente también puedo añadir los datos en mi pregunta...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X