¿No es revelador que esto se haya publicado en una revista no estadística de cuya revisión estadística no estamos seguros? Este problema fue resuelto por Hoeffding en 1948 (Annals of Mathematical Statistics 19:546), quien desarrolló un algoritmo sencillo que no requiere ni un binning ni múltiples pasos. El trabajo de Hoeffding ni siquiera se menciona en el artículo de Science. Esto ha sido en el R hoeffd
en la función Hmisc
paquete durante muchos años. Este es un ejemplo (tipo example(hoeffd)
en R):
# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y) # an X
hoeffd(x,y) # also accepts a numeric matrix
D
x y
x 1.00 0.06
y 0.06 1.00
n= 200
P
x y
x 0 # P-value is very small
y 0
hoeffd
utiliza una implementación Fortran bastante eficiente del método de Hoeffding. La idea básica de su prueba es considerar la diferencia entre los rangos conjuntos de X e Y y el producto del rango marginal de X y el rango marginal de Y, convenientemente escalado.
Actualización
Desde entonces he mantenido correspondencia con los autores (que son muy amables, por cierto, y están abiertos a otras ideas y siguen investigando sus métodos). Originalmente tenían la referencia de Hoeffding en su manuscrito, pero la cortaron (lamentándolo ahora) por falta de espacio. Mientras que la de Hoeffding $D$ parece funcionar bien para detectar la dependencia en sus ejemplos, no proporciona un índice que cumpla sus criterios de ordenar los grados de dependencia de la forma en que el ojo humano es capaz de hacerlo.
En una próxima versión del programa R Hmisc
he añadido dos salidas adicionales relacionadas con $D$ , es decir, la media y el máximo $|F(x,y) - G(x)H(y)|$ que son medidas útiles de la dependencia. Sin embargo, estas medidas, al igual que $D$ no tienen la propiedad que buscaban los creadores del MIC.