¿Qué tan robusto es el coeficiente de correlación de Pearson con las violaciones de la normalidad?

Question

¿Qué tan robusto es el coeficiente de correlación de Pearson con las violaciones de la normalidad?

Preguntado el 29 de Septiembre, 2012: Cuando se hizo la pregunta
4824 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Los datos correspondientes a ciertos tipos de variables tienden a ser no normales cuando se miden en poblaciones concretas (por ejemplo, los niveles de depresión en una población de personas con un trastorno depresivo grave). Dado que Pearson's asume la normalidad, ¿qué tan robusta es la estadística de la prueba en condiciones de no normalidad?

Tengo varias variables para las que me gustaría tener coeficientes de correlación, pero la asimetría en Z de algunas de esas variables es significativa en p <.001 (y eso es para una muestra relativamente pequeña). He intentado algunas transformaciones, pero las mejoras en las distribuciones son sólo marginales en el mejor de los casos.

¿Voy a tener que seguir con los análisis no paramétricos? ¿Y no sólo para las correlaciones, sino también para otros tipos de análisis?

Preguntado el 29 de Septiembre, 2012 por Attila Lendvai

Answer 1

2 Respuestas

Answer 2

20voto

Peter Carrero Puntos 382

Respuesta corta: Muy poco robusto. La correlación es una medida de dependencia lineal y cuando una variable no puede se escriba como una función lineal de la otra (y siga teniendo la distribución marginal dada), no se puede tener una correlación perfecta (positiva o negativa). De hecho, los posibles valores de las correlaciones pueden estar muy restringidos.

El problema es que mientras la correlación de la población es siempre entre $-1$ y $1$ El rango exacto alcanzable depende en gran medida de las distribuciones marginales. Una prueba rápida y una demostración:

Rango alcanzable de la correlación

Si $(X,Y)$ tiene la función de distribución $H$ y las funciones de distribución marginal $F$ y $G$ existe una serie de límites superiores e inferiores para $H$ , $$ H_-(x,y) \leq H(x,y) \leq H_+(x,y), $$ llamados límites de Fréchet. Estos son $$ \begin{aligned} H_-(x,y) &= \max(F(x) + G(y)-1, 0)\\ H_+(x,y) &= \min(F(x), G(y)). \end{aligned} $$ (Intenta probarlo; no es muy difícil).

Los límites son a su vez funciones de distribución. Sea $U$ tienen una distribución uniforme. El límite superior es la función de distribución de $(X,Y)=(F^-(U), G^-(U))$ y el límite inferior es la función de distribución de $(F^-(-U), G^-(1-U))$ .

Ahora, utilizando esta variante de la fórmula de la covarianza, $$ \mathop{\textrm{Cov}}(X,Y)=\iint H(x,y)-F(x)G(y) \mathop{\mathrm d\!}x \mathop{\mathrm d\!}y, $$ vemos que obtenemos la máxima y mínima correlación cuando $H$ es igual a $H_+$ y $H_-$ respectivamente, es decir, cuando $Y$ es una función monótona (positiva o negativa, respectivamente) de $X$ .

Ejemplos

He aquí algunos ejemplos (sin pruebas):

Cuando $X$ y $Y$ se distribuyen normalmente, obtenemos el máximo y el mínimo cuando $(X,Y)$ tiene la distribución normal bivariada habitual donde $Y$ se escribe como una función lineal de $X$ . Es decir, obtenemos el máximo para $$Y=\mu_Y+\sigma_Y \frac{X-\mu_X}{\sigma_X}.$$ Aquí están los límites (por supuesto) $-1$ y $1$ , sin importar los medios y las desviaciones $X$ y $Y$ tener.
Cuando $X$ y $Y$ tienen distribuciones lognormales, el límite inferior nunca es alcanzable, ya que eso implicaría que $Y$ podría escribirse $Y=a-bX$ para algunos $a$ y positivo $b$ y $Y$ nunca puede ser negativo. Existen fórmulas (un poco feas) para los límites exactos, pero permítanme dar un caso especial. Cuando $X$ y $Y$ tienen distribuciones lognormales estándar (lo que significa que cuando se exponen, son normales estándar), el rango alcanzable es $[-1/e, 1]\approx [-0.37, 1]$ . (En general, el límite superior también está restringido).
Cuando $X$ tiene una distribución normal estándar y $Y$ tiene una distribución lognormal estándar, los límites de correlación son $$\pm \frac{1}{\sqrt{e-1}} \approx 0.76.$$

Tenga en cuenta que todos los límites son para el población correlación. La correlación de la muestra puede extenderse fácilmente fuera de los límites, especialmente para muestras pequeñas (ejemplo rápido: tamaño de la muestra de 2).

Estimación de los límites de correlación

En realidad, es bastante fácil estimar los límites superior e inferior de la correlación si se puede simular a partir de las distribuciones marginales. Para el último ejemplo anterior, podemos utilizar este código de R:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Si sólo tenemos datos reales y no conocemos las distribuciones marginales, podemos seguir utilizando el método anterior. No es un problema que las variables sean dependientes siempre que las observaciones pares son dependientes. Pero ayuda tener muchos pares de observación.

Transformación de los datos

Por supuesto, es posible transformar los datos para que tengan una distribución (marginalmente) normal y luego calcular la correlación en los datos transformados. El problema es de interpretabilidad. (¿Y por qué utilizar la distribución normal en lugar de cualquier otros distribución en la que $Y$ puede ser una función lineal de $X$ ?) Para los datos que son bivariante con distribución normal, la correlación tiene una buena interpretación (su cuadrado es la varianza de una variable explicada por la otra). Este no es el caso.

Lo que realmente estás haciendo aquí es crear un nuevo medida de la dependencia que hace no dependen de las distribuciones marginales; es decir, se está creando un cópula -de la dependencia. Ya existen varias medidas de este tipo, de Spearman  ρ y Kendall's  τ siendo el más conocido. (Si realmente te interesan los conceptos de dependencia, no es mala idea investigar las cópulas).

En conclusión

Algunas reflexiones y consejos finales: Mirar sólo la correlación tiene un gran problema: hace que dejes de pensar. En cambio, mirar los gráficos de dispersión suele hacer que iniciar pensamiento. Por tanto, mi principal consejo sería examinar los gráficos de dispersión e intentar modelar la dependencia de forma explícita.

Dicho esto, si se necesita una medida simple de tipo correlacional, yo utilizaría simplemente la de Spearman  ρ (y el intervalo de confianza y las pruebas asociadas). Su rango no está restringido. Pero hay que tener muy en cuenta la dependencia no monótona. El Artículo de Wikipedia sobre la correlación tiene un par de buenos gráficos que ilustran los posibles problemas.

Respondido el 26 de Enero, 2014 por Peter Carrero (382 Puntos )

Answer 3

7voto

Zizzencs Puntos 1358

¿Qué aspecto tienen las distribuciones de estas variables (además de ser asimétricas)? Si la única no normalidad es la asimetría, entonces una transformación de algún tipo debe ayudar. Pero si estas variables tienen mucho amontonamiento, entonces ninguna transformación las llevará a la normalidad. Si la variable no es continua, lo mismo ocurre.

¿Cómo de sólida es la correlación con las violaciones? Echa un vistazo al Cuarteto de Anscombe. Ilustra bastante bien varios problemas.

En cuanto a otros tipos de análisis, depende del análisis. Si las variables sesgadas son variables independientes en una regresión, por ejemplo, puede que no haya ningún problema: hay que mirar los residuos.

Respondido el 29 de Septiembre, 2012 por Zizzencs (1358 Puntos )

¿Qué tan robusto es el coeficiente de correlación de Pearson con las violaciones de la normalidad?

Respuestas

Rango alcanzable de la correlación

Ejemplos

Estimación de los límites de correlación

Transformación de los datos

En conclusión

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Qué tan robusto es el coeficiente de correlación de Pearson con las violaciones de la normalidad?

Respuestas

Rango alcanzable de la correlación

Ejemplos

Estimación de los límites de correlación

Transformación de los datos

En conclusión

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: