21 votos

¿Puede explicarse intuitivamente el algoritmo MIC para detectar correlaciones no lineales?

Más recientemente, he leído dos artículos. Primero uno es sobre la historia de la correlación y segundo es sobre el nuevo método llamado Coeficiente de Información Máxima (CIM). Necesito su ayuda para entender el método MIC para estimar correlaciones no lineales entre variables.

Además, las instrucciones para su uso en R pueden encontrarse en el sitio web del autor (en Descargas ):

Espero que esta sea una buena plataforma para discutir y entender este método. Mi interés en discutir una intuición detrás de este método y cómo se puede ampliar como autor dijo.

" ...necesitamos extensiones de MIC(X,Y) a MIC(X,Y|Z). Querremos saber cuántos datos se necesitan para obtener estimaciones estables del MIC, cuán susceptible es a los valores atípicos, qué relaciones tridimensionales o superiores pasará por alto, y más. El MIC es un gran paso adelante, pero hay muchos más pasos que dar. "

25voto

dan90266 Puntos 609

¿No es revelador que esto se haya publicado en una revista no estadística de cuya revisión estadística no estamos seguros? Este problema fue resuelto por Hoeffding en 1948 (Annals of Mathematical Statistics 19:546), quien desarrolló un algoritmo sencillo que no requiere ni un binning ni múltiples pasos. El trabajo de Hoeffding ni siquiera se menciona en el artículo de Science. Esto ha sido en el R hoeffd en la función Hmisc paquete durante muchos años. Este es un ejemplo (tipo example(hoeffd) en R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffd utiliza una implementación Fortran bastante eficiente del método de Hoeffding. La idea básica de su prueba es considerar la diferencia entre los rangos conjuntos de X e Y y el producto del rango marginal de X y el rango marginal de Y, convenientemente escalado.

Actualización

Desde entonces he mantenido correspondencia con los autores (que son muy amables, por cierto, y están abiertos a otras ideas y siguen investigando sus métodos). Originalmente tenían la referencia de Hoeffding en su manuscrito, pero la cortaron (lamentándolo ahora) por falta de espacio. Mientras que la de Hoeffding $D$ parece funcionar bien para detectar la dependencia en sus ejemplos, no proporciona un índice que cumpla sus criterios de ordenar los grados de dependencia de la forma en que el ojo humano es capaz de hacerlo.

En una próxima versión del programa R Hmisc he añadido dos salidas adicionales relacionadas con $D$ , es decir, la media y el máximo $|F(x,y) - G(x)H(y)|$ que son medidas útiles de la dependencia. Sin embargo, estas medidas, al igual que $D$ no tienen la propiedad que buscaban los creadores del MIC.

8voto

Ryan Singer Puntos 38

El método MIC se basa en Información mutua (MI), que cuantifica la dependencia entre la distribución conjunta de X e Y y lo que sería la distribución conjunta si X e Y fueran independientes (Véase, por ejemplo, el Entrada de Wikipedia ). Matemáticamente, el IM se define como $$MI=H(X)+H(Y)-H(X,Y)$$ donde $$H(X)=-\sum_i p(z_i)\log p(z_i)$$ es la entropía de una sola variable y $$H(X,Y)=-\sum_{i,j} p(x_i,y_j)\log p(x_i,y_j)$$ es la entropía conjunta de dos variables.

Los autores idea principal es discretizar los datos en muchas cuadrículas bidimensionales diferentes y calcular las puntuaciones normalizadas que representan la información mutua de las dos variables en cada cuadrícula. Las puntuaciones se normalizan para garantizar una comparación justa entre diferentes cuadrículas y varían entre 0 (sin correlación) y 1 (altas correlaciones).

El MIC se define como la puntuación más alta obtenida y es una indicación de la intensidad de la correlación entre las dos variables. De hecho, los autores reclamar que para las relaciones funcionales sin ruido los valores MIC son comparables al coeficiente de determinación ( $R^2$ ).

4voto

Tagged Off Puntos 16

He encontrado dos buenos artículos que explican más claramente la idea del MIC en particular este uno; aquí el segundo .

Según entendí de estas lecturas es que se puede hacer un acercamiento a diferentes complejidades y escalas de las relaciones entre dos variables explorando diferentes combinaciones de cuadrículas; estas cuadrículas se usan para dividir el espacio bidimensional en celdas. Al elegir la cuadrícula que contiene la mayor información sobre cómo las celdas dividen el espacio, estás eligiendo el MIC.

Me gustaría preguntarle a @mbq si podría ampliar lo que llamó "trazar-todos-los-trazados-de-escala-y-los-con-grandes-áreas-blancas" y la complejidad irreal de O(M2).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X