Estoy interesado en FDA (datos percibidos como funciones), como alguien de un fondo de matemáticas puras y creo que puede ayudar a proporcionar soluciones a algunos desafíos importantes en el análisis de datos (también ciencia de datos), en comparación con la perspectiva ordinaria en la que los datos se perciben, como vectores. Sin embargo, no he encontrado mucha literatura al respecto en la web. ¿Podría alguien ayudarme a entender por qué esto es así? Además, ¿dónde puedo encontrar buenas lecturas sobre la FDA?
Respuestas
¿Demasiados anuncios?Como alguien con un conocimiento casi nulo de la FDA, pero que recientemente ha empezado a leerla y a pensar en ella, he aquí algunas de mis reflexiones sobre por qué la FDA no es tan popular estos días. Por favor, tómelos con un grano de sal ya que estoy lejos de ser un experto :
- La mayoría de los problemas de Ciencia de Datos que la gente está interesada en resolver "no se preocupan" por la naturaleza de los datos . Lo que quiero decir es que, cuando se intenta realizar una tarea como, por ejemplo, la regresión, la clasificación o la agrupación, los estadísticos se decantan por los métodos que producen los mejores modelos con un coste computacional mínimo. Dependiendo del contexto, de cuál sea la definición de "mejor", de la información disponible, etc., se pueden elegir distintos métodos que, a su vez, pueden basarse en distintas representaciones posibles de los datos, como vectores, matrices, gráficos, variedades suaves, funciones... Por lo tanto, cuando un conjunto de datos se puede representar perfectamente como un tensor que se puede introducir en una CNN con garantías sólidas sobre el rendimiento del modelo, ¿por qué molestarse en elegir la representación funcional?
Por otro lado, existen problemas en los que se intenta inferir información sobre las funciones que se muestrean a partir de ellas mismas, en ese caso específico no hay forma de evitar el uso de FDA (véase aquí para ver algunos ejemplos). - Esto me lleva al siguiente punto: En la práctica, los datos funcionales siempre se almacenan como objetos finitos (de alta dimensión), por lo que el paradigma FDA nunca es realmente necesario. . De hecho, aunque los datos sean en la práctica un conjunto de realizaciones de una función que dependen de uno o varios parámetros continuos, que suelen ser el espacio y/o el tiempo, lo que realmente tenemos almacenado en nuestro ordenador es una versión discretizada de los mismos. Aunque es cierto que cuando el "tamaño de malla" es suficientemente pequeño, se está cerca de tratar con datos funcionales "reales" como, por ejemplo, campos aleatorios, precios de acciones, grabaciones de vídeo, etc. En la práctica funciona bien considerar esos datos como objetos de dimensiones altas (pero finitas).
- Y aquí está, en mi opinión, el punto más crucial: Hay muchos algoritmos no específicos de la FDA que funcionan muy bien con datos funcionales. . De hecho, existen innumerables ejemplos de tratamiento con éxito de todo tipo de datos funcionales, tales como Grabaciones de vídeo , grabaciones de audio , imágenes por satélite y muchos más. Por otra parte, no ha habido, que yo sepa, muchos (o ningún) gran avance en los resultados que justifiquen la superioridad de los métodos específicos de la FDA para los datos funcionales sobre los más convencionales fuera de un contexto específico. No obstante, no se han perdido todas las esperanzas, ya que existen algunos argumentos teóricos que sugieren que el marco FDA puede ser muy superior al de dimensiones finitas en algunos casos, como este artículo de Delaigle y Hall: Lograr una clasificación casi perfecta de los datos funcionales (2012) que muestra que la "clasificación perfecta" es posible para los datos funcionales bajo supuestos muy suaves, mientras que definitivamente no es el caso en el entorno de dimensión finita. En la práctica, sin embargo, parece que la reducción de la dimensionalidad + los métodos clásicos funcionan perfectamente.
- Por último, creo que otro factor es que los conocimientos matemáticos necesarios para contribuir a la investigación en el ámbito de la FDA suelen estar fuera de la competencia de la mayoría de los estadísticos . De hecho, los algoritmos propuestos en la literatura a menudo se basan en resultados bastante profundos en Análisis Funcional con los que muchos estadísticos podrían no estar muy familiarizados, y hay otras cuestiones como, por ejemplo, la definición de una medida significativa en un espacio de funciones que son más profundas y menos probables que interesen a los estadísticos que son generalmente más expertos en cosas como Álgebra Lineal, Optimización, Desigualdades de Concentración, Teoría de la CV, etc.... Creo que ocurre lo mismo con Análisis de datos topológicos (aunque parece que últimamente está ganando mucha tracción) : las ideas son muy prometedoras, pero requieren un profundo conocimiento en conceptos matemáticos puros como la homología, los números de Betti o la característica de Euler... para ser aplicadas y mejoradas, que es un conocimiento que muchos estadísticos no tienen.
Aunque haya dicho todo eso, creo que hay muchas cosas interesantes que hacer en ese subcampo y que no se ha alcanzado todo su potencial. He leído sobre todo artículos relacionados con los problemas que me interesan, así que no tengo mucho que recomendar, pero he leído algunos de Hsing y Eubank y hasta ahora me parece genial. También he encontrado esta revisión de Wang, Chiou y Müller para hacerse una idea aproximada del estado actual de la técnica.
La FDA llegó tarde a la fiesta y los beneficios frente a las aplicaciones establecidas son a veces incrementales. En muchos casos, las "técnicas estándar de datos longitudinales" ya cumplen la mayoría de los requisitos. FDA proporciona algunas ventajas únicas en casos de uso específicos (por ejemplo, trabajar con funciones de densidad o superficies de covarianza como unidad de análisis), pero se trata de aplicaciones especializadas y bastante recientes.