1 votos

¿Ajuste de curvas de datos multivariantes para obtener la máxima correlación con datos univariantes?

Tengo datos de series temporales multivariantes del vehículo financiero EURUSD. En estos datos cada variable representa una métrica diferente. Hay ~200.000 filas y ~20 variables. No hay valores NULL para ninguna variable en ninguna fila. Todos los datos son numéricos.

Junto a estos datos, en cada punto temporal tengo los datos univariantes "Beneficio".

Quiero ajustar una función curva para transformar mi conjunto de datos multivariante en un nuevo conjunto de datos univariante que tenga la MÁXIMA correlación con mi variable "Beneficio".

En otras palabras, quiero iterar a través de diferentes transformaciones matemáticas de mi conjunto de datos multivariantes hasta que encuentre la que esté óptimamente correlacionada con mis datos "Profit".

¿Cuál es la mejor manera de hacerlo? Por lo que tengo entendido, un algoritmo genético debería funcionar bien.

3voto

Ted Puntos 854

El enfoque tradicional para este tipo de problema es:

  • si tiene una razón teórica para una relación entre sus variables explicativas y su respuesta (beneficio), entonces base un modelo en eso, y pruébelo rigurosamente...
  • si no, mira los 20 gráficos con cada una de tus variables en el eje horizontal y la respuesta (beneficio) en el eje vertical, y busca relaciones obvias, o transformaciones (logaritmo normalmente la primera) que hagan las relaciones razonablemente sencillas - si no lineales, al menos fácilmente aproximadas por splines o regresiones localmente lineales (ver el comentario de StasK)
  • a continuación, cree un conjunto de modelos lineales plausibles con el beneficio como respuesta y sus variables transformadas o splined (si eso es una palabra) como variables explicativas. Compare los modelos con algún criterio de bondad de ajuste, como AIC o BIC (hay mucho debate sobre cuál utilizar). Tenga cuidado de ajustar los valores p a la baja para tener en cuenta el hecho de que implícitamente ha analizado 2^20 modelos diferentes.

Desgraciadamente, cualquiera de esos puntos anteriores podría ser un capítulo o un libro importante. R puede hacer todo lo necesario. Yo usaría gráficos en lugar de coeficientes de correlación, y leería parte de la extensa bibliografía sobre selección y ajuste de modelos.

1voto

Nadia Puntos 6

La mejor forma de encontrar los parámetros más "significativos" en este tipo de problemas es el análisis de componentes principales. Como alternativa, la matriz de correlaciones de los datos también sirve. El análisis de componentes principales permite identificar los parámetros con mayor varianza, que suelen ser los más interesantes. Una vez identificados los más "significativos", puede reducir las dimensiones de los datos y buscar relaciones subyacentes entre ellos. En las nuevas dimensiones reducidas, puede encontrar las correlaciones de las nuevas dimensiones (también denominadas componentes principales) con los parámetros originales. Finalmente, los parámetros que tengan la mayor correlación con los componentes principales tendrán la varianza / correlación máxima y más significativa. Espero que le sirva de ayuda.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X