14 votos

Umbral del coeficiente de correlación para indicar la importancia estadística de una correlación en una matriz de correlación

He calculado una matriz de correlaciones de un conjunto de datos que contiene 455 puntos de datos, cada uno de los cuales contiene 14 características. Así que la dimensión de la matriz de correlación es de 14 x 14.

Me preguntaba si existe un umbral para el valor del coeficiente de correlación que señale que existe una correlación significativa entre dos de esas características.

Tengo valores que van de -0,2 a 0,85, y estaba pensando que los importantes son los que están por encima de 0,7.

  • ¿Existe un valor general para el coeficiente de correlación que deba considerarse para el umbral o depende simplemente del contexto del tipo de datos que estoy investigando?

1 votos

0 votos

@usuario603 Buena captura: es prácticamente la misma pregunta. La novedad aquí es preguntar si las pruebas de correlación significativa podrían depender del "tipo de datos" (léase: distribución de los datos). Esperemos que las respuestas se centren en este aspecto en lugar de repasar el viejo terreno.

11voto

Eric Davis Puntos 1542

Pruebas de significación de las correlaciones

Existen pruebas de significación estadística que pueden aplicarse a las correlaciones individuales, que indican la probabilidad de obtener una correlación tan grande o mayor que la correlación de la muestra suponiendo que la hipótesis nula sea cierta.

El punto clave es que lo que constituye un coeficiente de correlación estadísticamente significativo depende de:

  • Tamaño de la muestra : Una muestra de mayor tamaño conducirá a umbrales más pequeños
  • alfa El valor de los alfas: a menudo se fija en 0,05, pero los alfas más pequeños conducen a umbrales más altos de significación estadística.
  • prueba de una cola / de dos colas : Supongo que usted utilizaría dos colas, así que esto probablemente no importa
  • tipo de coeficiente de correlación : Supongo que estás usando el sistema de Pearson
  • hipótesis de distribución de x e y

En circunstancias comunes, en las que el alfa es de 0,05, utilizando una prueba de dos colas, con la correlación de Pearson, y en las que la normalidad es al menos una aproximación adecuada, el principal factor que influye en el corte es el tamaño de la muestra.

Umbral de importancia

Otra forma de interpretar su pregunta es considerar que no le interesa saber si una correlación es estadísticamente significativa, sino si es prácticamente importante.

Algunos investigadores han ofrecido reglas empíricas para interpretar el significado de los coeficientes de correlación, pero estas reglas empíricas son específicas del ámbito.

Pruebas de significación múltiple

Sin embargo, como lo que le interesa es marcar correlaciones significativas en una matriz, esto cambia el contexto inferencial. Usted tiene $k(k-1)/2$ correlaciones donde $k$ es el número de variables (es decir $14(13)/2=91$ . Si la hipótesis nula fuera cierta para todas las correlaciones de la matriz, cuantas más pruebas de significación se realicen, más probabilidades habrá de cometer un error de tipo I. Por ejemplo, en su caso, usted cometería de media $91 * .05 = 4.55$ Errores de tipo I si la hipótesis nula fuera cierta para todas las correlaciones.

Como ha señalado @user603, estas cuestiones fueron bien discutidas en este pregunta anterior .

En general, me parece útil, al interpretar una matriz de correlación, centrarse en la estructura de nivel superior. Esto puede hacerse de manera informal, observando los patrones generales de la matriz de correlación. También puede hacerse de manera más formal utilizando técnicas como el ACP y el análisis factorial. Estos enfoques evitan muchos de los problemas asociados a las pruebas de significación múltiple.

1voto

Eero Puntos 1612

Una opción sería la simulación o la prueba de permutación. Si conoce la distribución de la que proceden sus datos, podría simular a partir de esa distribución, pero con todas las observaciones independientes. Si no conoce la distribución, puede permutar cada una de sus variables independientemente de las demás y eso le dará la misma distribución marginal general de cada variable, pero con cualquier correlación eliminada.

Haga cualquiera de las dos cosas anteriores (manteniendo el tamaño de la muestra y las dimensiones de la matriz iguales) un montón de veces (10.000 más o menos) y observe la correlación absoluta máxima, u otro cuantil alto que pueda ser de interés. Esto le dará la distribución de la hipótesis nula con la que puede comparar el máximo de sus correlaciones reales observadas (y los otros cuantiles altos de interés).

0voto

Liza F Puntos 21

Puede demostrar que el error estándar en la correlación de Pearson de dos vectores estocásticamente independientes muestreados a partir de la distribución normal es $n^{-2}$ , donde $n$ es la longitud del vector. Así que la correlación estadísticamente significativa de dos vectores tendría $corr >> n^{-2}$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X