73 votos

Mira y encontrarás (una correlación)

Tengo varios cientos de medidas. Ahora, estoy considerando utilizar algún tipo de software para correlacionar cada medida con cada medida. Esto significa que hay miles de correlaciones. Entre ellas debería haber (estadísticamente) una alta correlación, incluso si los datos son completamente aleatorios (cada medida tiene sólo unos 100 puntos de datos).

Cuando encuentro una correlación, ¿cómo incluyo en ella la información sobre lo mucho que he buscado una correlación?

No tengo un nivel alto en estadística, así que por favor, tened paciencia conmigo.

78voto

jldugger Puntos 7490

Esta es una pregunta excelente, digna de alguien que tiene un pensamiento estadístico claro, porque reconoce un aspecto sutil pero importante de las pruebas múltiples.

Hay métodos estándar para ajustar los valores p de los coeficientes de correlación múltiple (o, lo que es lo mismo, para ampliar sus intervalos de confianza), como los métodos de Bonferroni y Sidak ( q.v. ). Sin embargo, estos son demasiado conservadores con grandes matrices de correlación debido a las relaciones matemáticas inherentes que deben mantenerse entre los coeficientes de correlación en general. (Para ver algunos ejemplos de estas relaciones, consulte el pregunta reciente y el hilo que le sigue .) Uno de los mejores enfoques para afrontar esta situación es llevar a cabo una prueba de permutación (o remuestreo) . Es fácil hacer esto con las correlaciones: en cada iteración de la prueba, basta con revolver al azar el orden de los valores de cada uno de los campos (destruyendo así cualquier correlación inherente) y volver a calcular la matriz de correlación completa. Haga esto durante varios miles de iteraciones (o más), y luego resuma las distribuciones de las entradas de la matriz de correlación dando, por ejemplo, sus percentiles 97,5 y 2,5: estos servirían como intervalos de confianza mutuos simétricos de dos caras bajo la hipótesis nula de no correlación. (La primera vez que haga esto con un gran número de variables se asombrará de lo elevados que pueden ser algunos de los coeficientes de correlación incluso cuando no hay correlación inherente).

Al informar de los resultados, independientemente de los cálculos que realices, debes incluir lo siguiente:

  • El tamaño de la matriz de correlación ( es decir , cuántas variables has mirado).

  • Cómo ha determinado los valores p o la "significación" de cualquiera de los coeficientes de correlación ( Por ejemplo (si no se ha hecho nada, se ha aplicado una corrección de Bonferroni, se ha hecho una prueba de permutación, o lo que sea).

  • Ya sea que haya mirado medidas alternativas de correlación, como Correlación de rango de Spearman . Si lo hizo, indique también por qué eligió el método que realmente está informando y utilizando.

13voto

Eric Davis Puntos 1542

A partir de su respuesta a la pregunta de Peter Flom, parece que le convendría utilizar técnicas que examinen la estructura de nivel superior de su matriz de correlación.

Se pueden utilizar técnicas como el análisis factorial, el ACP, el escalado multidimensional y el análisis de conglomerados de variables para agrupar sus variables en conjuntos de variables relativamente más relacionadas.

Además, es posible que quiera pensar teóricamente en el tipo de estructura que debería estar presente. Cuando el número de variables es grande y el número de observaciones es pequeño, suele ser mejor confiar más en las expectativas previas.

9voto

Zizzencs Puntos 1358

Este es un ejemplo de comparaciones múltiples. Hay una gran literatura sobre esto.

Si tiene, por ejemplo, 100 variables, tendrá 100*99/2 =4950 correlaciones.

Si los datos son sólo ruido, entonces se esperaría que 1 de cada 20 de ellos fuera significativo a p = 0,05. Es decir, 247,5

Sin embargo, antes de ir más lejos, sería bueno que dijeras POR QUÉ lo haces. ¿Cuáles son estas variables, por qué las correlacionas, cuál es tu idea de fondo?

O, ¿sólo estás pescando correlaciones altas?

9voto

Auron Puntos 2123

Tal vez podría hacer un análisis preliminar en un subconjunto aleatorio de los datos para formar hipótesis, y luego probar esas pocas hipótesis de interés utilizando el resto de los datos. De este modo, no tendría que corregir tantas pruebas múltiples. (Creo...)

Por supuesto, si se utiliza este procedimiento, se reducirá el tamaño del conjunto de datos utilizado para el análisis final y, por tanto, se reducirá la potencia para encontrar efectos reales. Sin embargo, las correcciones de las comparaciones múltiples también reducen la potencia, por lo que no estoy seguro de que se pierda necesariamente nada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X