25 votos

Análisis de componentes principales funcionales (ACFP): ¿en qué consiste?

El análisis de componentes principales funcionales (ACFP) es algo con lo que he tropezado y que nunca he llegado a comprender. ¿En qué consiste?

Véase "Estudio de componentes principales funcionales de Shang, 2011 y estoy citando:

El ACP tiene serias dificultades para analizar datos funcionales debido a la "maldición de la dimensionalidad" (Bellman 1961). La "maldición de la dimensionalidad" tiene su origen en la escasez de datos en el espacio de alta dimensión. Incluso aunque las propiedades geométricas del ACP sigan siendo válidas, y aunque las técnicas numéricas resultados estables, la matriz de covarianza de la muestra es a veces una mala estimación de la matriz de covarianza de la población. Para superar esta dificultad, el FPCA ofrece una forma mucho más informativa de examinar la estructura de covarianza de la muestra que PCA [...]

No lo entiendo. ¿Cuál es el inconveniente que describe este artículo? ¿No se supone que PCA es el método definitivo para manejar situaciones como la "maldición de la dimensionalidad"?

30voto

zowens Puntos 1417

Considero que la "PCA funcional" es una noción innecesariamente confusa. No se trata de algo distinto, sino de un ACP estándar aplicado a series temporales.

FPCA se refiere a las situaciones en las que cada uno de los $n$ observaciones es una serie temporal (es decir, una "función") observada en $t$ puntos temporales, de modo que toda la matriz de datos sea de $n \times t$ tamaño. Normalmente $t\gg n$ por ejemplo, se puede tener $20$ series temporales muestreadas a $1000$ puntos temporales cada uno. El objetivo del análisis es encontrar varias "series temporales propias" (también de longitud $t$ ), es decir, los vectores propios de la matriz de covarianza, que describirían la forma "típica" de la serie temporal observada.

Aquí sí que se puede aplicar el ACP estándar. Aparentemente, en su cita, al autor le preocupa que las series temporales propias resultantes sean demasiado ruidosas. Esto puede ocurrir. Dos maneras obvias de resolverlo serían (a) suavizar la serie temporal propia resultante después del ACP, o (b) suavizar la serie temporal original antes de hacer el ACP.

Un enfoque menos obvio, más extravagante, pero casi equivalente, consiste en aproximar cada serie temporal original con $k$ funciones de base, reduciendo efectivamente la dimensionalidad de $t$ a $k$ . A continuación, se puede realizar el ACP y obtener las series temporales propias aproximadas por las mismas funciones de base. Esto es lo que se suele ver en los tutoriales de FPCA. Normalmente se utilizan funciones de base suaves (gaussianas, o componentes de Fourier), así que por lo que veo esto es esencialmente equivalente a la descerebradamente simple opción (b) anterior.

Los tutoriales sobre FPCA suelen entrar en largas discusiones sobre cómo generalizar el PCA a los espacios funcionales de dimensionalidad infinita, pero la relevancia práctica de eso es totalmente fuera de mi alcance ya que, en la práctica, los datos funcionales están siempre discretizados.

He aquí una ilustración tomada del libro de texto "Functional Data Analysis" de Ramsay y Silverman, que parece ser el monografía definitiva sobre el "análisis de datos funcionales", incluido el ACFP:

Ramsay and Silverman, FPCA

Se puede ver que hacer el ACP sobre los "datos discretizados" (puntos) produce prácticamente lo mismo que hacer el ACFP sobre las funciones correspondientes en la base de Fourier (líneas). Por supuesto, se podría hacer primero el ACP discreto y luego ajustar una función en la misma base de Fourier; se obtendría más o menos el mismo resultado.

PS. En este ejemplo $t=12$ que es un número pequeño con $n>t$ . Quizá lo que los autores consideran "ACP funcional" en este caso debería dar como resultado una "función", es decir, una "curva suave", en lugar de 12 puntos separados. Pero esto puede abordarse trivialmente interpolando y luego suavizando las series temporales propias resultantes. Una vez más, parece que el "ACP funcional" no es una cosa aparte, sino sólo una aplicación del ACP.

15voto

Awais Tariq Puntos 116

Trabajé varios años con Jim Ramsay en la FDA, así que quizá pueda añadir algunas aclaraciones a la respuesta de @amoeba. Creo que a nivel práctico, @amoeba tiene básicamente razón. Al menos, esa es la conclusión a la que yo llegué finalmente tras estudiar la FDA. Sin embargo, el marco de la FDA da una interesante visión teórica de por qué suavizar los vectores propios es algo más que una chapuza. Resulta que la optmización en el espacio de funciones, sujeta a un producto interior que contiene una penalización por suavidad, da una solución de dimensión finita de splines de base. La FDA utiliza el espacio de funciones de dimensión infinita, pero el análisis no requiere un número infinito de dimensiones. Es como el truco del kernel en los procesos gaussianos o SVM. En realidad, se parece mucho al truco del kernel.

El trabajo original de Ramsay se ocupaba de situaciones en las que la historia principal de los datos es obvia: las funciones son más o menos lineales, o más o menos periódicas. Los vectores propios dominantes del ACP estándar se limitarán a reflejar el nivel general de las funciones y la tendencia lineal (o funciones seno), diciéndonos básicamente lo que ya sabemos. Las características interesantes residen en los residuos, que ahora son varios vectores propios de la parte superior de la lista. Y como cada eigenvector posterior tiene que ser ortogonal a los anteriores, estas construcciones dependen cada vez más de artefactos del análisis y menos de características relevantes de los datos. En el análisis factorial, la rotación factorial oblicua pretende resolver este problema. La idea de Ramsay no era rotar los componentes, sino cambiar la definición de ortogonalidad de forma que reflejara mejor las necesidades del análisis. Esto significaba que si se trataba de componentes periódicos, se suavizaría sobre la base de $D^3-D$ que elimina los senos y los consenos. Si se quisiera eliminar una tendencia lineal, se suavizaría sobre la base de $D^2$ que da splines cúbicos estándar.

Se podría objetar que sería más sencillo eliminar la tendencia con MCO y examinar los residuos de esa operación. Nunca estuve convencido de que el valor añadido de la FDA mereciera la enorme complejidad del método. Pero desde un punto de vista teórico, merece la pena considerar los problemas que plantea. Todo lo que hacemos con los datos desordena las cosas. Los residuos de OLS están correlacionados, incluso cuando los datos originales eran independientes. Suavizar una serie temporal introduce autocorrelaciones que no estaban en la serie original. La idea de la FDA era garantizar que los residuos obtenidos a partir de la regresión inicial fueran adecuados para el análisis de interés.

Hay que recordar que la FDA se originó a principios de los años 80, cuando las funciones spline eran objeto de un estudio activo: pensemos en Grace Wahba y su equipo. Desde entonces han surgido muchos enfoques de los datos multivariantes, como el SEM, el análisis de curvas de crecimiento, los procesos gaussianos, nuevos desarrollos de la teoría de procesos estocásticos y muchos más. No estoy seguro de que la FDA siga siendo el mejor enfoque para las cuestiones que aborda. Por otra parte, cuando veo aplicaciones de lo que pretende ser FDA, a menudo me pregunto si los autores entienden realmente lo que FDA intentaba hacer.

7voto

vignesh Puntos 6

Exactamente, como dices en la pregunta y como @tdc pone en su respuesta, en caso de dimensiones extremadamente altas, incluso si las propiedades geométricas de PCA siguen siendo válidas, la matriz de covarianza ya no es una buena estimación de la covarianza real de la población.


Hay un muy interesante documento "Análisis de Componentes Principales Functional Principal Component Analysis of fMRI Data" ( pdf ) donde utilizan el ACP funcional para visualizar la varianza:

...Como en otras técnicas de exploración, el objetivo es proporcionar una evaluación inicial que dé a los datos la oportunidad de "hablar por sí mismos" antes de elegir un modelo apropiado. [...]

En el documento explican cómo lo han hecho exactamente y también aportan un razonamiento teórico:

La ventaja decisiva de este enfoque consiste en la posibilidad de especificar una serie de supuestos en la elección del conjunto de funciones de base y en el funcional de error minimizado por el ajuste. Estas suposiciones serán más débiles que la especificación de una función hemodinámica predefinida y un conjunto de eventos o condiciones como en el enmascaramiento F, preservando así el carácter exploratorio del procedimiento; sin embargo, las suposiciones podrían seguir siendo lo suficientemente estrictas como para superar las dificultades del ACP ordinario.

5voto

A.Schulz Puntos 264

No estoy seguro de FPCA, pero una cosa a recordar, es que en extremadamente En dimensiones altas, hay mucho más "espacio", y los puntos dentro del espacio empiezan a parecer uniformemente distribuidos (es decir, todo está lejos de todo lo demás). En este punto, la matriz de covarianza empezará a parecer esencialmente uniforme y será muy sensible al ruido. Por lo tanto, se convierte en una mala estimación de la "verdadera" covarianza. Tal vez FPCA consigue evitar esto de alguna manera, pero no estoy seguro.

1voto

Martin Puntos 33

Wikipedia ofrece una amplia introducción al análisis funcional de componentes principales. Pero es demasiado rigurosa para personas con poca experiencia en matemáticas o estadística.

El nombre de ACP funcional es "engañoso" en cierto sentido, ya que teóricamente opera sobre un proceso estocástico compuesto por infinitas funciones, en lugar de funciones de muestra finita. El suavizado es una "corrección" numérica para las muestras limitadas, así como la observación "discontinua" a través del dominio en la realidad (por ejemplo, el tiempo).

La teoría de Karhunen-Loève es el fundamento del ACP funcional. Se trata de una "eigendecomposición" de una función de covarianza de un proceso estocástico centrado e integrable al cuadrado en $L^2$ espacio métrico. Por otra parte, PCA es una "eigendecomposición" de la matriz de varianza-covarianza calculada a partir de un conjunto de datos finitos centrados en $R^p$ espacio métrico (p variables). Existen muchas similitudes entre el ACP funcional y el ACP una vez que se establece el "directorio de trabajo" correcto. Así que hay que averiguar qué es un proceso estocástico, qué es $L^2$ espacio métrico, en primer lugar. Son bastante accesibles intuitivamente.

un "hecho" curioso, $$ \lim \limits_{\substack{sample~size~of~functions~ \rightarrow ~\infty \\ "discontinuity"~of~f \rightarrow ~ 0} } PCA \longrightarrow fPCA $$ sin alisado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X