Esta mi respuesta no responder correctamente a la pregunta. Por favor, lea los comentarios.
Comparemos covarianza habitual y covarianza de la distancia . La parte efectiva de ambos son sus numeradores. (El numerador de la covarianza es el producto cruzado sumado (= producto escalar) de las desviaciones de un punto, la media: $\Sigma (x_i-\mu^x)(y_i-\mu^y)$ (con superíndice $\mu$ como ese centroide). Para reescribir la expresión en este estilo: $\Sigma d_{i\mu}^x d_{i\mu}^y$ con $d$ que representa la desviación del punto $i$ del centroide, es decir, su distancia (con signo) al centroide. La covarianza se define por la suma de los productos de las dos distancias sobre todos los puntos.
Cómo son las cosas con covarianza de la distancia ? El numerador es, como usted sabe, $\Sigma d_{ij}^x d_{ij}^y$ . ¿No es muy parecido a lo que hemos escrito arriba? ¿Y cuál es la diferencia? Aquí, la distancia $d$ está entre variar puntos de datos y no entre un punto de datos y la media, como en el caso anterior. La covarianza de la distancia se define por la suma de los productos de las dos distancias sobre todos los pares de puntos.
Producto escalar (entre dos entidades - en nuestro caso, variables $x$ y $y$ ) basado en la codistancia de un punto fijo se maximiza cuando los datos se disponen a lo largo de una línea recta . El producto escalar basado en la codistancia de un punto var*i*able se maximiza cuando los datos se disponen a lo largo de una línea recta localmente, a trozos; en otras palabras, cuando los datos en conjunto representan cadena de cualquier forma , dependencia de cualquier forma.
Y de hecho, la covarianza habitual es mayor cuando la relación está más cerca de ser lineal perfecta y las varianzas son mayores. Si se estandarizan las varianzas a una unidad fija, la covarianza depende sólo de la fuerza de la asociación lineal, y entonces se llama Pearson correlación . Y, como sabemos -y acabamos de intuir por qué-, la covarianza de la distancia es mayor cuando la relación está más cerca de ser una curva perfecta y la dispersión de los datos es mayor. Si se estandarizan los diferenciales a una unidad fija, la covarianza depende sólo de la fuerza de alguna asociación curvilínea, y entonces se llama Browniana (distancia) correlación .