Es normalmente una prueba que indica si se puede inferir que la correlación "verdadera" (población) es distinta de cero. $$ \begin{align} H_0&: \textrm{The two variables are uncorrelated. } &(r = 0) \\ H_a&: \textrm{The two variables are correlated. } &(r \ne 0) \\ \end{align} $$
Por lo general, sólo se tiene acceso a una muestra de valores de las dos variables de interés. Se podría imaginar que es fácil deducir una correlación fuerte entre dos variables a partir de una muestra pequeña, pero se necesitan más datos para determinar si una relación aparente es una correlación débil o sólo ruido. La fórmula del estadístico de prueba respalda esta intuición: es una función del tamaño de la muestra ( $n$ ) y la correlación muestral ( $r$ ). Una forma de comprobarlo es mediante la distribución t. Se calcula:
$$t^* \approx\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}$$
a continuación, utilice el $t_{n-2}$ para convertirlo en un $p$ -que indica la probabilidad de ver una correlación al menos tan grande en la muestra. si la correlación de la población es cero . Otros enfoques utilizan una fórmula "exacta" ligeramente diferente, que de nuevo sólo es función de $r$ y $n$ y pueden interpretarse de la misma manera.
Tenga en cuenta que esto realmente le dice qué puede reclamar , basado en una muestra: un gran $p$ -valor no significa necesariamente que la correlación sea exactamente cero, sólo que no se puede decir si lo es o no dados los datos.
Esto es lo que Matlab corr
de SciPy scipy.stats.mstats.pearsonr
y R's cor.test
por defecto. Hay, por supuesto, otras pruebas que se pueden ejecutar en las correlaciones (por ejemplo, para comparar dos correlaciones), así que compruebe para asegurarse.