6 votos

Valor p para el coeficiente de correlación de Pearson ponderado

Estoy calculando un coeficiente de correlación ponderado, utilizando el método descrito aquí.

Me gustaría calcular un valor p para el coeficiente r resultante. ¿Cómo puedo hacer esto correctamente, dado que mi r fue calculado utilizando pesos? Naturalmente, la fórmula estándar para el valor p de r (por ejemplo, aquí) no tiene en cuenta los pesos, y no estoy seguro de cómo tener en cuenta correctamente los pesos al calcular el valor p.

6voto

Nick Cox Puntos 22819

El valor $P$ reportado para una correlación depende de la correlación de la muestra, el tamaño de la muestra y un conjunto de suposiciones que no siempre se verifican (la independencia, en mi experiencia, es la menos verificada de todas). Pero hay una diferencia entre un valor $P$ basado en $t$ crudo basado en una hipótesis nula de correlación cero y un valor $P$ más general basado en la transformación $z$ de Fisher.

No creo que haya una respuesta a esto independientemente de cuáles sean los pesos. Si el peso significa que estás combinando datos de diferentes submuestras, entonces los pesos tienen implicaciones para el tamaño de la muestra que se debe usar; al mismo tiempo, las correlaciones basadas en combinaciones ponderadas no necesariamente tendrían la misma distribución que la distribución de correlación basada en datos brutos.

Al mismo tiempo, es difícil alterarse por esto. Si las correlaciones tienen un punto es que miden la fuerza de la relación; si tienes serias dudas de que sean significativamente diferentes de cero, entonces se puede argumentar que simplemente tienes muestras demasiado pequeñas y ser preciso acerca de ese problema es secundario.

Es probable que esto no comprenda bien tu problema, en cuyo caso puede que tengas que dar muchos más detalles.

Si para ti es importante obtener valores $P$ realmente confiables para correlaciones ponderadas, es posible que necesites entenderlo a través de la simulación, incluida la simulación del proceso de ponderación si eso también es variable.

2 votos

Creo que esa es la lectura correcta de mi problema. Tanto (a) parece que la respuesta depende de los pesos, como (b) la simulación parece ser el último recurso si no hay una forma cerrada. Y tu filosofía general tiene sentido. Aún así, estaba esperando un cálculo genérico (análogo al valor P basado en t con una hipótesis nula de cero), presumiblemente en términos de los pesos.

0voto

Jeremy Davis Puntos 283

Aún no me he sentado a trabajar en las matemáticas, pero de las pocas simulaciones que he realizado parece que reemplazar el número de muestras $n$ en las fórmulas con el número efectivo de muestras $n_\text{eff}$ produce aproximaciones muy buenas.

$n_\text{eff} = \exp(H)$, donde $H=-\sum_{i=1}^n w_i \ln w_i$ es la entropía de pesos (normalizados a $\sum_{i=1}^n w_i = 1$).

Por ejemplo:

  • $t = r\sqrt{\frac{n_\text{eff}-2}{1-r^2}}$ sigue aproximadamente una distribución $t$ con $n_\text{eff}-2$ grados de libertad,
  • $F(r) = \frac{1}{2}\ln\left(\frac{1+r}{1-r}\right)$ sigue aproximadamente una distribución normal con media $F(\rho)$ y desviación estándar $\frac{1}{\sqrt{n_\text{eff}-3}}$.

Pero hay que tener en cuenta que incluso las fórmulas no ponderadas para los valores $p$ son aproximaciones que asumen datos normales, etc. Las pruebas de bootstrap o de permutación pueden ser más fiables y funcionan también con la correlación ponderada de Spearman.

0 votos

Un caso extremo ayuda a enfocar la mente. Supongamos que la correlación se basa en dos puntos distintos en ambas variables, cada uno representando un grupo con una frecuencia conocida. Entonces la correlación necesariamente tiene magnitud 1, y lo que sabes -- que los grupos son casi siempre heterogéneos y por lo tanto la correlación subyacente será (mucho?) menos -- no puede ayudar a ir más allá de la correlación ficticiamente alta.

0 votos

Sospecho que la pregunta que no puede ser estudiada fácilmente -- por qué estamos viendo datos ponderados y qué hay más allá de lo que nos han dado -- es a menudo tan o más importante que, por ejemplo, si cada variable está o no distribuida normalmente. El reanudador o la permutación no pueden ayudar ahí, según lo que puedo ver.

0 votos

@NickCox Lo siento, no entiendo tu ejemplo con dos puntos. Obviamente, la correlación de muestra será +/- 1, pero el valor p debería indicarte que esto podría suceder muy probablemente por casualidad. Las fórmulas en mi respuesta (prueba t o z sobre la transformación de Fisher) no están definidas para n=2 y la prueba de bootstrap/permutación debería estimar que el valor p es muy alto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X