38 votos

¿Puede aplicarse el ACP a los datos de las series temporales?

Tengo entendido que el Análisis de Componentes Principales (ACP) puede aplicarse básicamente a los datos transversales. ¿Puede utilizarse el PCA para datos de series temporales de forma efectiva especificando el año como variable de serie temporal y ejecutando el PCA normalmente? He encontrado que el PCA dinámico funciona para datos de panel y la codificación en Stata está diseñada para datos de panel y no para series temporales. ¿Existe algún tipo específico de PCA que funcione con datos de series temporales?

Actualización. Permítanme explicarlo con detalle.

Actualmente estoy construyendo un índice de infraestructuras en la India con variables como la longitud de las carreteras, la longitud de las rutas ferroviarias, la capacidad de generación de electricidad, el número de abonados al teléfono, etc. Tengo 12 variables a lo largo de 22 años para un país. Aunque he revisado artículos que aplican el ACP a las series temporales e incluso a los datos de panel, el ACP está diseñado para datos transversales que asumen la hipótesis i.i.d. Los datos de panel y transversales lo violan y el ACP no tiene en cuenta la dimensión de las series temporales. He visto que el PCA dinámico se aplica sólo a los datos de panel. Quiero saber si existe un PCA específico que se aplique a las series temporales o si la ejecución de un PCA estático con el año definido como variable de la serie temporal funcionará.

19voto

uli78 Puntos 410

Un enfoque podría ser tomar las primeras diferencias temporales de sus 12 variables para garantizar la estacionariedad. A continuación, calcule el $12\times12$ matriz de covarianza y realizar el PCA en ella. Se tratará de una especie de PCA medio a lo largo de todo el periodo de tiempo, y no dirá nada sobre cómo se afectan entre sí los distintos intervalos de tiempo. Pero podría ser un buen punto de partida.

Si estás interesado en descomponer el dominio del tiempo también, yo miraría SSA como se sugiere en los comentarios.

Cuando las series son (supuestamente) estacionarias, una única matriz de covarianza tiene sentido. Si sus datos son integrados de un orden de 1 o superior, como sospecho que pueden ser, la estimación de una única matriz de covarianza no dará resultados consistentes. Un paseo aleatorio es, por ejemplo, integrado de orden 1, y la covarianza estimada de dos paseos aleatorios no dice nada sobre su co-movimiento, aquí cointegración es necesario el análisis.

Como se ha sugerido en los comentarios, el PCA en sí mismo no se preocupa por la estacionariedad, por lo que se puede alimentar al PCA con cualquier matriz semidefinida positiva y la descomposición del PC estará bien en el sentido del PCA.

Pero si su matriz de covarianza estimada no representa nada significativo sobre los datos, entonces el PCA, por supuesto, tampoco lo hará.

16voto

Sí, el ACP sobre series temporales se realiza continuamente en ingeniería financiera (finanzas cuantitativas) y neurología.

En la ingeniería financiera, la matriz de datos se construye con activos (por ejemplo, acciones) en columnas que representan las características, y las filas que representan, por ejemplo, los días (u objetos) para la negociación al final del día. Así, la matriz de datos $\underset{t \times p}{\bf X}$ tiene $t$ filas y $p$ columnas. Sin embargo, hay que tener en cuenta que las devoluciones de los registros, $r_t=\log(P_t) - \log(P_{t-1}) = \log(P_t/P_{t-1})$ ya que los precios diarios tienen una distribución logarítmica normal, es decir, son asimétricos con colas derechas. Dado que hay 250 días de negociación al año, es conveniente obtener 1000 días de datos, lo que representa 4 años de negociación. Dado que se suele utilizar la misma unidad (por ejemplo, el dólar) para los rendimientos diarios de los precios logarítmicos, el $p \times p$ La matriz de covarianza de las características se utiliza para la eigendecomposición. De lo contrario, si se utilizan diferentes monedas, se utiliza la matriz de correlación para la eigendecomposición, ya que la correlación media-cero normaliza las columnas de $\bf{X}$ . Una vez ejecutado el PCA en los activos, se puede observar qué acciones se cargan en qué PC, una especie de enfoque de agrupación, o utilizar las puntuaciones de los PC para introducirlas en otros análisis. El PCA también se ejecuta en el $t \times t$ matriz de covarianza para los días, con los activos en las filas, con el fin de colapsar los días que se correlacionan juntos en una sola PC, ya que la idea general es que los días pueden ser redundantes - y cuando se alimentan los datos en, por ejemplo, una red neuronal, usted no quiere que las filas de datos sean redundantes o que las características estén correlacionadas (usted quiere que sean ortogonales), ya que una red neuronal perderá tiempo en el aprendizaje de la correlación. Sin embargo, este enfoque no se centra en la autocorrelación.

En las finanzas cuantitativas, también hay un gran interés en encontrar primero el límite de ruido en los valores propios de la matriz de covarianza (correlación) para muchos activos con el fin de mejorar la optimización de la cartera (Markowitziana), ya que se quiere una cartera que se sitúe en la "frontera eficiente" con activos que no estén correlacionados. Este enfoque aprovecha la ley de Marcenko-Pastur y la relación $\gamma=t/n$ de la matriz de datos $\bf{X}$ para ajustar la densidad de valores propios, y encontrar el corte de ruido conocido como $\lambda^+$ por encima de la cual los valores propios representan la señal, y por debajo de la cual los valores propios representan el ruido. Una vez identificados los valores propios del ruido, el nuevo conjunto de datos se basa en la regresión (multivariante) de los datos originales en las puntuaciones de PC que representan los vectores propios del ruido, $\mathbf{Y}=\mathbf{F}_n \beta$ y los residuos se utilizan como conjunto de datos desnaturalizados, es decir, $\hat{\bf{X}}=\bf{Y}-\hat{\bf{Y}}$ . Se ha demostrado que los valores de riqueza (rendimiento acumulado) de las carteras construidas con las ponderaciones derivadas del nuevo conjunto de datos (residuales) son mucho mayores que si no se utiliza este enfoque. Por último, también existe un método básico para eliminar el "efecto mercado" o la correlación generalizada entre los rendimientos de las acciones mediante una regresión de los datos de los activos sobre el primer PC que representa el mayor valor propio, $\mathbf{Y}=\mathbf{f}_1 \beta$ y retirando los residuos para representar los nuevos datos, que tendrán la correlación de mercado generalizada eliminada. (ya que el primer CP siempre representa valores con alta multicolinealidad). Este enfoque aborda el sentimiento del mercado ligado a la "mentalidad de rebaño".

En neurología, el PCA se ejecuta en series temporales de potenciales de acción en diferentes bandas de longitud de onda obtenidas de un EEG. La transformación de los potenciales de acción en vectores de puntuación de PC ortogonales (no correlacionados) y la introducción de los PC en otros análisis es el principal medio por el que se aumentó la potencia estadística en el modelado genético estadístico de rasgos complejos para la genética del comportamiento (ya que los fenotipos de, por ejemplo, bipolaridad, búsqueda de novedades, esquizotípico, esquizofrenia a menudo se superponen). Los grandes estudios de gemelos genéticos australianos fueron fundamentales para analizar estos rasgos superpuestos en la genética del comportamiento, porque si hay diferencias de enfermedades entre gemelos idénticos que se crían juntos (crecen en el mismo hogar), la inferencia causal puede apuntar a la exposición en entornos diferentes cuando eran mayores en lugar de a su genética idéntica. (Los gemelos idénticos "comparten el 100% de sus genes todo el tiempo").

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X