10 votos

La correlación entre dos variables de tamaño desigual

En un problema en el que estoy trabajando, tengo dos variables aleatorias, X e Y. necesito averiguar cómo la estrecha relación entre los dos de ellos son, pero son de diferentes dimensiones. El rango de la fila espacio de X es de 4350, y el rango de la fila espacio de Y es sustancialmente más grande, en la que decenas de miles de personas. Ambos X e y tienen el mismo número de columnas.

Necesito una medida de correlación entre las dos variables, y la r de Pearson requiere que X y y tengan la misma dimensión (al menos R requiere que los dos r.v.'s ser).

Tengo la esperanza de hacer una correlación entre estos dos, o debo encontrar la manera de poda fuera de observaciones de Y?

10voto

icelava Puntos 548

Así que el problema es uno de los datos que faltan (no todos Y tienen un X correspondiente, en que la correspondencia se operativiza a través de los puntos de tiempo). Creo que no hay mucho que hacer aquí más que para tirar el Y usted no tiene una X y calcular la correlación sobre el total de los pares.

Es posible que desee leer en tiempo financiero de la serie, aunque no tengo una buena referencia útil en este punto (ideas, ¿alguien?). Los precios de las acciones a menudo exhiben un tiempo variable de volatilidad, que puede ser modelado, por ejemplo, por GARCH. Es concebible que sus dos series X e y presentan correlaciones positivas durante los períodos de baja volatilidad (cuando la economía crece, todos los precios de las acciones tienden a aumentar), pero la correlación negativa cuando la volatilidad es alta (en el 9/11, las líneas aéreas se derrumbó mientras que el dinero huyó a inversiones más seguras). Tan sólo el cálculo de una correlación general pueden ser demasiado dependiente de su tiempo de observación en el marco.

ACTUALIZACIÓN: creo que usted puede desear mirar en VAR (vectores autorregresivos) modelos.

10voto

jldugger Puntos 7490

Ninguna cantidad de la imputación, análisis de series de tiempo, modelos GARCH, la interpolación, extrapolación, o de otros de fantasía algoritmos de hacer cualquier cosa para crear la información, donde no existe (a pesar de que puede crear esa ilusión ;-). La historia de las Y precio antes de X se hizo pública es inútil para la evaluación de su posterior correlación.

A veces (a menudo preparatorio para un IPO) los analistas de uso interno de la información contable (o registros de valores privados de transacciones) para reconstruir retrospectivamente hipotético precios para X bolsa antes de que se hizo pública. Posiblemente dicha información puede ser utilizada para mejorar las estimaciones de la correlación, pero dada la extrema tentativo de la naturaleza de tales backcasts, dudo que el esfuerzo iba a ser de ninguna ayuda salvo al principio, cuando sólo hay unos pocos días o semanas de los precios de los X disponibles.

2voto

Jon Galloway Puntos 28243

@Jeromy Anglim especificado correctamente. Tener la información adicional cuando sólo uno de la serie de tiempo existía proporcionaría ningún valor aquí. Y, en principio, los datos deben ser muestreados en el mismo momento para que sea significativo el uso convencional de correlación de las medidas.

Como un problema más general, me gustaría añadir que hay técnicas para tratar con irregularmente espaciados datos de series de tiempo. Usted puede buscar para "irregularmente espaciados de la serie de tiempo de correlación". Algunos de los trabajos recientes que se ha hecho en "se dio cuenta de la Volatilidad y la Correlación" (Andersen, Bollerslev, Diebold, y Labys 1999) con datos de alta frecuencia.

1voto

Dada la información extra en tus comentarios, me gustaría recomendar mirando los dos correlaciones. El primero sería el mismo período de tiempo que las empresas que estaban alrededor. Por lo tanto, si uno era de alrededor de 2 años antes de lo que acababa de soltar que los datos y la mirada en el resto. La segunda sería la relativa períodos de tiempo. En el segundo no está en correlación real de tiempo pero el tiempo se mide desde que la compañía salió a bolsa.

El primero sería fuertemente influenciado por el general de las fuerzas económicas compartidas dentro de un mismo período de tiempo. Esto último sería influenciado por las propiedades compartidas por las empresas al cambio después de la IPO.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X