15 votos

Significación del coeficiente medio de correlación

Descargo de responsabilidad: si encuentras esta pregunta demasiado parecida a otra, me alegro de que se fusione. Sin embargo, no he encontrado una respuesta satisfactoria en ningún otro sitio (y todavía no tengo la "reputación" para comentar o upvote), así que pensé que sería mejor hacer una nueva pregunta a mí mismo.

Mi pregunta es la siguiente. Para cada uno de los 12 sujetos humanos, he calculado un coeficiente de correlación (rho de Spearman) entre 6 niveles de una variable independiente X, y las observaciones correspondientes de una variable dependiente Y. (Nota: los niveles de X no son iguales en todos los sujetos.) Mi hipótesis nula es que en la población general, esta correlación es igual a cero. He comprobado esta hipótesis de dos maneras:

  1. Utilizando una prueba t de una muestra sobre los coeficientes de correlación obtenidos de mis 12 sujetos.

  2. Centrando mis niveles de X y observaciones de Y de tal forma que para cada participante, media(X) = 0 y media(Y) = 0, y luego calculando una correlación sobre los datos agregados (72 niveles de X y 72 observaciones de Y).

Ahora, leyendo sobre cómo trabajar con coeficientes de correlación (aquí y en otros sitios) he empezado a dudar de que el primer planteamiento sea válido. En particular, he visto la siguiente ecuación aparecer en varios sitios, presentada (aparentemente) como una prueba t para coeficientes de correlación medios:

$$t = \frac{r}{SE_{r}} = \frac{\sqrt{n-2}}{\sqrt{1-r^{2}}}$$

donde $r$ sería el coeficiente de correlación medio (y supongamos que lo hemos obtenido utilizando primero la transformación de Fisher sobre los coeficientes por sujeto) y $n$ el número de observaciones. Intuitivamente, esto me parece incorrecto, ya que no incluye ninguna medida de la variabilidad entre sujetos. En otras palabras, si tuviera 3 coeficientes de correlación, obtendría el mismo estadístico t tanto si fueran [0,1, 0,5, 0,9] como [0,45 0,5 0,55] o cualquier rango de valores con la misma media (y $n=3$ )

Sospecho, por tanto, que la ecuación anterior no se aplica en realidad cuando se comprueba la significación de una media de coeficientes de correlación, sino cuando se comprueba la significación de un único coeficiente de correlación basado en $n$ observaciones de 2 variables.

¿Podría alguien confirmar esta intuición o explicar por qué es errónea? Además, si esta fórmula no se aplica a mi caso, ¿alguien conoce un enfoque correcto? ¿O tal vez mi propia prueba número 2 ya es válida? Cualquier ayuda es muy apreciada (incluidos los punteros a las respuestas anteriores que puedo haber perdido o malinterpretado).

5voto

mkt Puntos 688

Un mejor enfoque para analizar estos datos es utilizar un modelo mixto (modelo de efectos mixtos, modelo jerárquico) con subject como efecto aleatorio (intercepto aleatorio o intercepto aleatorio + pendiente). Para resumir un respuesta diferente mía:

Esencialmente, se trata de una regresión que modela una única relación global al tiempo que permite que esa relación difiera entre grupos (los sujetos humanos). Este enfoque se beneficia de la agrupación parcial y utiliza los datos de forma más eficiente.

-1voto

Supongo que el $12$ variables ( $6$ $X$ y $6$ $Y$ ) son los mismos para todos los individuos (en realidad, no estoy seguro de entender lo que quieres decir con que los niveles no son iguales en todos los sujetos: Espero que te refieras a la independencia entre los rangos de las variables, no a qué variables se miden para cada individuo). Sí, la fórmula que has mostrado se aplica al coeficiente de correlación entre dos variables.

En tu punto 2, hablas de normalizar: creo que esto tendría sentido si lo hicieras para cada uno de los $6*2$ variables por separado. Sin embargo, aun así, el problema de este enfoque es que no controla la dependencia intraindividual.

Creo que tu planteamiento 1 tampoco es válido, porque sería una prueba entre $6$ variables con distribución $t$ con sólo $10$ grados de libertad, por lo que no creo que se pueda aplicar el Teorema Central del Límite en este caso.

Tal vez, con números más grandes, podría utilizar un enfoque de efectos aleatorios, permitiendo una pendiente aleatoria y probando simultáneamente tanto un coeficiente medio nulo (de $X_i$ en $Y_i$ ) y la inexistencia de un coeficiente aleatorio. Creo sin embargo que 6 variables y 12 observaciones no son suficientes para hacerlo.

Te sugiero que lo veas como una prueba sobre 6 valores (que se convierten en 12 si consideras también los valores por debajo de la diagonal) de la matriz de correlaciones entre las $12$ variables (tanto la $X$ y el $Y$ ), es decir, los de la diagonal del 2º (y equivalentemente del 3º) cuadrante. Así pues, yo haría una prueba de razón de verosimilitud entre el modelo restringido y el no restringido.

@Alexis Tengo entendido que el centrado $X_1, \dots, X_6$ , $Y_1, \dots, Y_6$ sustituyéndolos por $X_1^*=X_1-\bar{X_1}, \dots, X_6^*=X_6-\bar{X_6}, Y_1^*=Y_1-\bar{Y_1}, \dots, Y_6^*=Y_6-\bar{Y_6}$ tendría sentido (creo que también tendría sentido dividirlos por su $SE$ 's). De este modo, las variables $X^*$ y $Y^*$ (creado teniendo en cuenta la $X_i^*, 1 \leq i \leq 6$ como si fueran ocurrencias de una única variable, y lo mismo para $Y_i^*$ ) tendrían todos un $0$ media. Por el contrario, si construimos dos variables $X, Y$ primero (creado teniendo en cuenta el $X_i, 1 \leq i \leq 6$ como si fueran ocurrencias de una única variable, y lo mismo para $Y_i$ ), entonces, por supuesto, restando la media (y también dividiendo por el SE de $X$ y $Y$ ) no cambiaría las cosas.

EDITAR 01/01/18

Sea $i$ indican la variable y $j$ ( $1\leq j\leq 12$ ) el individuo. Entonces, supongamos que tenemos

$X_{1j}=Y_{1j}=10, \forall j$ ;

$X_{2j}=Y_{2j}=8, \forall j$ ;

$X_{3j}=Y_{3j}=6, \forall j$ ;

$X_{4j}=Y_{4j}=4, \forall j$ ;

$X_{5j}=Y_{5j}=2, \forall j$ ;

$X_{6j}=-Y_{6j}=j, \forall j$ .

La correlación en este caso debería ser $0.5428$ .

Si centramos cada variable, dado que, para $1 \leq i \leq 5$ , ambos $X_i$ y $Y_i$ no tienen variación, nosotros sí: $X_{ij}^*=Y_{ij}^*=0$ . En cuanto a $i=6$ obtenemos los valores $X_{6j}^*=j-6.5, Y_{j6}^*=(13-j)-6.5=6.5-j$ (es decir, para el $X$ 's: $-5.5, -4.5, -3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5, 4.5, 5.5$ y exactamente lo contrario para el $Y$ 's). Dado que $0=-0$ y $j-6.5=-(6.5-j)$ , obtenemos: $X_{ij}^*=-Y_{ij}^* \forall i,j \rightarrow X^*=-Y^*$ lo que implica una correlación de $-1$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X