1 votos

Fórmula de los valores del nivel crítico de la correlación de Pearson

Como la estadística no es mi especialidad, me ha costado encontrar y comprender todas las piezas que faltan. He visto muchas tablas con niveles críticos para pearson-r pero no encuentro ninguna fórmula en la que pueda confiar. Lo que necesito es generar este tipo de tabla pero para cualquier valor que desee:

df\p  0,1    0,05    0,02    0,01    0,001
-------------------------------------------
1   0,98769 0,99692 0,99950 0,9998  0,99999
2   0,90000 0,95000 0,98000 0,9900  0,99900
3   0,8054  0,8783  0,93433 0,95873 0,99116
4   0,7293  0,8114  0,8822  0,91720 0,97406
5   0,6694  0,7545  0,8329  0,8745  0,95074
6   0,6215  0,7067  0,7887  0,8343  0,92493
7   0,5822  0,6664  0,7498  0,7977  0,8982
8   0,5494  0,6319  0,7155  0,7646  0,8721
9   0,5214  0,6021  0,6851  0,7348  0,8471
10  0,4973  0,5760  0,6581  0,7079  0,8233
11  0,4762  0,5529  0,6339  0,6835  0,8010
12  0,4575  0,5324  0,6120  0,6614  0,7800
13  0,4409  0,5139  0,5923  0,6411  0,7603
14  0,4259  0,4973  0,5742  0,6226  0,7420
15  0,4124  0,4821  0,5577  0,6055  0,7246
16  0,4000  0,4683  0,5425  0,5897  0,7084
17  0,3887  0,4555  0,5285  0,5751  0,6932
18  0,3783  0,4438  0,5155  0,5614  0,6787
19  0,3687  0,4329  0,5034  0,5487  0,6652
20  0,3598  0,4227  0,4921  0,5368  0,6524
25  0,3233  0,3809  0,4451  0,4869  0,5974
30  0,2960  0,3494  0,4093  0,4487  0,5541
35  0,2746  0,3246  0,3810  0,4182  0,5189
40  0,2573  0,3044  0,3578  0,3932  0,4896
45  0,2428  0,2875  0,3384  0,3721  0,4648
50  0,2306  0,2732  0,3218  0,3541  0,4433
60  0,2108  0,2500  0,2948  0,3248  0,4078
70  0,1954  0,2319  0,2737  0,3017  0,3799
80  0,1829  0,2172  0,2565  0,2830  0,3568
90  0,1726  0,2050  0,2422  0,2673  0,3375
100 0,1638  0,1946  0,2301  0,2540  0,3211

Más concretamente, necesito un trozo de código (pero no en R) para generar valor para cualquier N que necesite. Por ejemplo, para N = 79 , p = 0.01 , de una cola (con pasos N-2).

Sería estupendo que alguien explicara cómo calcularlo paso a paso, publicara la fórmula o simplemente escribiera un trozo de código (o pseudocódigo) fácil de entender.

function criticalR(N, alpha){
    return // this part I need;
}

console.log( criticalR(50, 0.02) ); // prints 0,5155

1voto

AdamSane Puntos 1825

La distribución nula exacta para una correlación de Pearson en la que se supone que las variables son normales bivariadas y la nula es $\rho=0$ tendrá la forma de una distribución beta simétrica desplazada y escalada, concretamente, transformada linealmente a (-1,1).

La forma explícita de la densidad se da en el artículo de Wikipedia sobre el Coeficiente de correlación de Pearson :

$$p(r) = \frac{(1-r^2)^{(n-4)/2}}{\operatorname{B}(1/2, (n-2)/2)}$$

donde $r$ es la variable aleatoria (la correlación de la muestra), $n$ es el tamaño de la muestra (número de pares de observaciones) y $B$ es el (completo) función beta .

Podemos utilizar fácilmente la fdc beta y la fdc beta inversa (común en muchos paquetes de estadísticas) para obtener los valores críticos y los valores p, ocupándonos nosotros mismos de la transformación lineal. O si estamos escribiendo código desde cero, muchas bibliotecas numéricas ofrecen la función beta incompleta y su inversa, que pueden utilizarse para hacer lo mismo.

Como alternativa, dada la hipótesis nula de correlación poblacional de 0, una transformación particular de la correlación de la muestra tendrá una distribución t; si está atascado usando tablas esto será particularmente conveniente, ya que las tablas t son a menudo más extensas que las tablas para el coeficiente de correlación.

Esto también se da en el mismo artículo de Wikipedia enlazado anteriormente, en la sección titulada Pruebas con la distribución t de Student :

$$t=r{\sqrt {\frac {n-2}{1-r^{2}}}}$$

con $n-2$ grados de libertad.

Esta relación se puede utilizar para obtener los valores p directamente o se puede utilizar para sacar los valores críticos si se quiere construir una tabla más grande (aunque cuestiono la necesidad de las tablas en absoluto, ya que los cálculos de la distribución t son casi omnipresentes en el software estadístico y los paquetes numéricos para los idiomas) -- es sencillo hacer $r^2$ el tema: $r^2=1-1/[1+t^2/(n-2)]$ y, por tanto, obtener valores críticos para $r$ de los valores críticos para $t$ .

Como comprobación, el valor crítico de dos colas del 1% para una t con 80 df (es decir, con n=82) es 2,6387 y 1-1/[1+2,6387^2/(80)] es aproximadamente 0,080065; la raíz cuadrada de esto es 0,28296, que se redondea al valor de su tabla anterior (0,2830).

Para los casos moderados y grandes $n$ (decir $n>80$ más o menos, dependiendo de su tolerancia a la aproximación) la aproximación normal es bastante buena a niveles típicamente significativos (digamos cerca del 5%). Si se utilizan niveles de significación muy pequeños (quizás para mantener una tasa de error tipo I baja), entonces puede ser necesario un tamaño de muestra considerablemente mayor para obtener una buena aproximación de la normal, pero si se utiliza un ordenador hay pocas razones para no calcular exactamente utilizando la distribución beta o la transformación a una distribución t (ambas son exactas cuando se cumplen los supuestos).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X