21 votos

Cuando se distancia de la covarianza menos apropiado que el lineal de covarianza?

Sólo he introducido (vagamente) a browniano/distancia covarianza/correlación. Parece particularmente útil en muchos no-lineal de las situaciones, cuando las pruebas para la dependencia. Pero parece ser que no se utiliza muy a menudo, incluso a pesar de que la covarianza/correlación se utiliza a menudo para los no-lineal/caótica de datos.

Que me tiene pensando que no podrían ser algunos de los inconvenientes de la distancia de la covarianza. Así que lo son, y por qué no todo el mundo utilice siempre la distancia de la covarianza?

19voto

giulio Puntos 166

He tratado de recoger algunas observaciones sobre la distancia de covarianza basado en mis impresiones de la lectura de las referencias que aparecen a continuación. Sin embargo, no me considero un experto en este tema. Comentarios, correcciones, sugerencias, etc. son bienvenidos.

Los comentarios son (muy) sesgada hacia posibles inconvenientes, como se pide en la pregunta original.

Como yo lo veo, los posibles inconvenientes son como sigue:

  1. La metodología es nueva. Mi conjetura es que este es el único mayor factor se refiere a la falta de popularidad en este momento. El documentos de esbozar distancia covarianza inicio a mediados de la década de 2000 y progresos hasta el presente día. El documento citado anteriormente es el que recibido la mayor atención (bombo?) y es menos de tres años de edad. En contraste, la teoría y los resultados sobre la correlación y correlación-como medidas de tener más de un siglo de trabajo ya detrás de ellos.
  2. Los conceptos básicos son más difíciles. Pearson de correlación producto-momento, a nivel operativo, puede ser explicó a los universitarios de primer año sin un cálculo de fondo bastante fácilmente. Un simple "algorítmica" punto de vista puede ser establecido y la intuición geométrica es fácil de describir. En contraste, en el caso de la distancia de covarianza, incluso la noción de sumas de productos de pares Euclidiana las distancias es un poco más difícil, y la noción de covarianza con respecto a un proceso estocástico, que va mucho más allá de lo que podría razonablemente ser explicado a este público.
  3. Es computacionalmente más exigentes. El algoritmo básico para calcular el estadístico de prueba es $O(n^2)$ en el tamaño de la muestra como se opuso a $O(n)$ de correlación con el estándar de métricas. Para los pequeños los tamaños de muestra que esto no es un gran problema, pero para los mayores se se vuelve más importante.
  4. La prueba estadística no es de distribución libre, incluso asintóticamente. Uno podría esperar que para un estadístico de prueba que se consistente en contra de todas las alternativas, que el la distribución de al menos asintóticamente—podría ser independiente de la base de las distribuciones de $X$ $Y$ bajo la hipótesis nula. Este no es el caso de la distancia de covarianza como la distribución bajo la nula depende del subyacente distribución de $X$ $Y$ incluso como el tamaño de la muestra tiende a infinito. Tambien es cierto que las distribuciones son uniformemente delimitado por una $\chi^2_1$ de la distribución, lo que permite la cálculo de un conservador de valor crítico.
  5. La distancia de correlación es un uno-a-uno la transformación de $|\rho|$ en el caso normal bivariante. Esto no es realmente un inconveniente, y incluso podría ser visto como una fortaleza. Pero, si uno acepta un bivariado normal de aproximación a los datos, que pueden ser muy común en la práctica, entonces, poco, si algo, se obtiene a partir de utilizando la distancia de correlación en lugar de los procedimientos estándar.
  6. Desconocido propiedades de opciones de energía. Ser coherente en contra de todos los alternativas esencialmente garantiza que la distancia de la covarianza debe tienen muy bajo poder en contra de algunas de las alternativas. En muchos casos, uno de los está dispuesto a renunciar a la generalidad con el fin de obtener un el poder contra el particular alternativas de interés. El original trabajos muestran algunos ejemplos en los que se demanda la alta potencia relativa a la correlación con el estándar de indicadores, pero creo que, volviendo (1.) anteriormente, su comportamiento frente a las alternativas aún no está bien entendido.

Para reiterar, esta respuesta probablemente se trata de algo negativo. Pero, que no es la intención. Hay algunos muy bonita e interesante ideas relacionadas con la distancia de la covarianza y la relativa novedad de que también se abre vías de investigación para comprender más plenamente.

Referencias:

  1. G. J. Szekely y M. L. Rizzo (2009), Browniano distancia la covarianza, Ann. Appl. Estatismo., vol. 3, no. 4, 1236-1265.
  2. G. J. Szekely, M. L. Rizzo y N. K. Bakirov (2007), la Medición y el las pruebas de independencia por la correlación de las distancias, Ann. Estatismo., vol. 35, 2769-2794.
  3. R. Lyon (2012), la Distancia de la covarianza en la métrica de los espacios, Ann. El Probab. (aparecer).

3voto

pauly Puntos 932

Yo bien podría ser que falte algo, pero contar con una cuantificación de la dependencia no lineal entre dos variables no parece tener mucho de una rentabilidad. No le dirá la forma de la relación. No se le dará ningún medio para predecir una variable de la otra. Por analogía, al realizar un análisis exploratorio de datos uno a veces utiliza un loess de la curva (localmente ponderada diagrama de dispersión más suave) como un primer paso para ver si los datos son mejores modelados con una línea recta, cuadrático, cúbico, etc. Pero el loess en sí y de por sí no es una muy útil herramienta de predicción. Es sólo una primera aproximación en el camino de encontrar una viable ecuación para describir un bivariante forma. La ecuación, a diferencia de los loess (o la distancia de covarianza resultado), se puede formar la base de una confirmación del modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X