65 votos

¿Cómo puedo comprobar que dos variables continuas son independientes?

Supongamos que tengo una muestra $(X_n,Y_n), n=1..N$ de la distribución conjunta de $X$ y $Y$ . ¿Cómo puedo probar la hipótesis de que $X$ y $Y$ son independiente ?

No se hace ninguna suposición sobre las leyes de distribución conjunta o marginal de $X$ y $Y$ (menos aún la normalidad conjunta, ya que en ese caso la independencia es idéntica a la correlación siendo $0$ ).

No se hace ninguna suposición sobre la naturaleza de una posible relación entre $X$ y $Y$ puede ser no lineal, por lo que las variables son no correlacionado ( $r=0$ ) pero altamente codependiente ( $I=H$ ).

Puedo ver dos enfoques:

  1. Bin ambas variables y el uso de Prueba exacta de Fisher o Prueba G .

    • Pro: utilizar pruebas estadísticas bien establecidas
    • Contra: depende del binning
  2. Estimar el dependencia de $X$ y $Y$ : $\frac{I(X;Y)}{H(X,Y)}$ (esto es $0$ para los independientes $X$ y $Y$ y $1$ cuando se determinan completamente).

    • Pro: produce un número con un claro significado teórico
    • En contra: depende del cálculo aproximado de la entropía (es decir, del binning de nuevo)

¿Tienen sentido estos planteamientos?

¿Qué otros métodos utiliza la gente?

39voto

Bauna Puntos 176

Este es un problema muy difícil en general, aunque sus variables son aparentemente sólo 1d así que eso ayuda. Por supuesto, el primer paso (cuando sea posible) debería ser trazar los datos y ver si algo salta a la vista; estás en 2d así que esto debería ser fácil.

Estos son algunos enfoques que funcionan en $\mathbb{R}^n$ o incluso ajustes más generales:

25voto

dan90266 Puntos 609

Hoeffding desarrolló una prueba no paramétrica general para la independencia de dos variables continuas utilizando rangos conjuntos para probar $H_{0}: H(x,y) = F(x)G(y)$ . Esta prueba de 1948 está implementada en el programa R Hmisc del paquete hoeffd función.

6voto

Li Zhi Puntos 31

¿Qué te parece este documento?

http://arxiv.org/pdf/0803.4101.pdf

"Medición y comprobación de la dependencia por correlación de distancias". Székely y Bakirov siempre tienen cosas interesantes.

Hay un código matlab para la implementación:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Si encuentras alguna otra prueba (sencilla de implementar) para la independencia háznoslo saber.

6voto

arthur gretton Puntos 51

El vínculo entre la covarianza de distancia y las pruebas de núcleo (basadas en el criterio de independencia de Hilbert-Schmidt) se da en el documento:

Sejdinovic, D., Sriperumbudur, B., Gretton, A., y Fukumizu, K., Equivalence of distance-based and RKHS-based statistics in hypothesis testing, Annals of Statistics, 41 (5), pp.2263-2702, 2013.

Se demuestra que la covarianza de la distancia es un caso especial del estadístico del núcleo, para una familia particular de núcleos.

Si se pretende utilizar la información mutua, una prueba basada en una estimación binada del IM es:

Gretton, A. y Gyorfi, L., Consistent Nonparametric Tests of Independence, Journal of Machine Learning Research, 11 , pp.1391--1423, 2010.

Si le interesa obtener la mejor potencia de las pruebas, es mejor que utilice las pruebas del núcleo, en lugar del binning y la información mutua.

Dicho esto, dado que sus variables son univariantes, las pruebas de independencia no paramétricas clásicas, como la de Hoeffding, probablemente estén bien.

5voto

Rara vez (¿nunca?) en estadística se puede demostrar que la estadística de la muestra = un valor puntual. Se pueden hacer pruebas con valores puntuales y excluirlos o no excluirlos. Pero la naturaleza de la estadística es que se trata de examinar datos variables. Dado que siempre hay varianza, necesariamente no habrá forma de saber que algo es exactamente no relacionado, normal, gaussiano, etc. Sólo puedes conocer un rango de valores para ello. Podrías saber si un valor está excluido del rango de valores plausibles. Por ejemplo, es fácil excluir la no relación y dar un rango de valores para lo grande que es la relación.

Por lo tanto, tratando de demostrar que no hay relación, esencialmente el valor del punto de relationship = 0 no va a tener éxito. Si usted tiene un rango de medidas de relación que son aceptables como aproximadamente 0. Entonces sería posible idear una prueba.

Suponiendo que pueda aceptar esa limitación, sería útil para las personas que intentan ayudarle que proporcionara un gráfico de dispersión con una curva lowess. Ya que estás buscando soluciones en R, prueba:

scatter.smooth(x, y)

Basándome en la limitada información que has dado hasta ahora creo que un modelo aditivo generalizado podría ser lo mejor para probar la no independencia. Si lo trazas con los IC en torno a los valores predichos podrás hacer afirmaciones sobre una creencia de independencia. Compruebe gam en el paquete mgcv. La ayuda es bastante buena y hay asistencia aquí con respecto a la CI .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X