13 votos

¿Cómo calcular la correlación entre/dentro de grupos de variables?

Tengo una matriz de 1000 observaciones y 50 variables, cada una de ellas medida en una escala de 5 puntos. Estas variables están organizadas en grupos, pero no hay un número igual de variables en cada grupo.

Me gustaría calcular dos tipos de correlaciones:

  1. Correlación dentro de grupos de variables (entre características): alguna medida de si las variables dentro del grupo de variables están midiendo lo mismo.
  2. Correlación entre grupos de variables: alguna medida, asumiendo que cada grupo refleja un rasgo global, de cómo cada rasgo (grupo) está relacionado con cada uno de los otros rasgos.

Estas características se han clasificado previamente en grupos. Me interesa encontrar la correlación entre los grupos, es decir, suponiendo que las características dentro de un grupo miden el mismo rasgo subyacente (habiendo completado el punto 1 anterior, el alfa de Cronbach), ¿están los rasgos relacionados entre sí?

¿Alguien tiene sugerencias sobre por dónde empezar?

16voto

DavLink Puntos 101

Lo que sugirió @rolando parece un buen comienzo, si no la respuesta completa (IMO). Permítanme continuar con el enfoque correlacional, siguiendo el marco de la teoría clásica de las pruebas (CTT). En este caso, como señala @Jeromy, una medida de resumen para su grupo de características podría considerarse como la puntuación total (o suma) de todos los ítems (una característica, en sus palabras) pertenecientes a lo que ahora denominaré una escala. En el marco de la CTT, esto nos permite formalizar la propensión o la responsabilidad del "rasgo" individual como la ubicación de uno en una escala continua que refleja un constructo subyacente (un rasgo latente), aunque aquí se trata simplemente de una escala ordinal (pero esto es otro debate en la literatura psicométrica).

Lo que has descrito tiene que ver con lo que se conoce como convergente (en qué medida los ítems pertenecientes a una misma escala se correlacionan entre sí) y discriminante (los ítems pertenecientes a diferentes escalas no deben correlacionarse en gran medida) validez en psicometría. Las técnicas clásicas incluyen el análisis multirrasgo multimétodo (MTMM) (Campbell y Fiske, 1959). A continuación se muestra una ilustración de su funcionamiento (tres métodos o instrumentos, tres constructos o rasgos):

enter image description here

En esta matriz MTMM, los elementos diagonales pueden ser el alfa de Cronbach o la correlación intraclase test-retest; son indicadores de la fiabilidad de cada escala de medición. La página web validez de los constructos hipotetizados (compartidos) se evalúa mediante la correlación de las puntuaciones de las escalas cuando se utilizan diferentes instrumentos para evaluar el mismo rasgo; si estos instrumentos se desarrollaron de forma independiente, la correlación alta ( $> 0.7$ ) apoyaría la idea de que los rasgos se definen de forma coherente y objetiva. Las restantes celdas de esta matriz MTMM resumen las relaciones entre rasgos dentro del método y entre los rasgos a través de los métodos y son indicativos de la forma en que se miden los constructos únicos con diferentes escalas y cuáles son las relaciones entre cada rasgo en una escala determinada. Suponiendo que los rasgos sean independientes, generalmente no esperamos que sean altos (un umbral recomendado es $<.3$ ), pero se puede realizar una prueba de hipótesis más formal (sobre las estimaciones de puntos de correlación). Una sutileza es que utilizamos la llamada "correlación de reposo", es decir, calculamos la correlación entre un ítem (o rasgo) y su escala (o método) después de eliminar la contribución de este ítem a la puntuación de la suma de esta escala (corrección por solapamiento).

Aunque este método se desarrolló inicialmente para evaluar la validez convergente y discriminante de un determinado número de rasgos estudiados por diferentes instrumentos de medida, puede aplicarse a un único instrumento multiescala. Los rasgos se convierten entonces en los ítems, y los métodos son sólo las diferentes escalas. La generalización de este método a un único instrumento también se conoce como escala de rasgos múltiples . Los ítems que se correlacionan como se espera (es decir, con su propia escala y no con una escala diferente) se cuentan como éxito de escalada . Sin embargo, generalmente asumimos que las diferentes escalas no están correlacionadas, es decir, que se dirigen a diferentes constructos hipotéticos. Pero promediar las correlaciones dentro y entre las escalas proporciona una forma rápida de resumir la estructura interna de su instrumento. Otra forma conveniente de hacerlo es aplicar un análisis de conglomerados a la matriz de correlaciones por pares y ver cómo se relacionan las variables.

Cabe destacar que, en ambos casos, se aplican las advertencias habituales de trabajar con medidas de correlación, es decir, no se puede tener en cuenta el error de medición, se necesita una muestra grande y se supone que los instrumentos o las pruebas son "paralelos" (equivalencia tau, errores no correlacionados, varianzas de error iguales).

La segunda parte abordada por @rolando también es interesante: Si no hay ningún indicio teórico o sustantivo de que la agrupación de ítems ya establecida tenga sentido, entonces tendrás que encontrar una forma de poner de manifiesto la estructura de tus datos con, por ejemplo, un análisis factorial exploratorio. Pero incluso si confía en esas "características dentro de un grupo", puede comprobar que se trata de una suposición válida. Ahora, puede utilizar el modelo de análisis factorial confirmatorio para comprobar que el patrón de cargas de los ítems (correlación de un ítem con su propia escala) se comporta como se espera.

En lugar de los métodos tradicionales de análisis factorial, también se puede echar un vistazo a la agrupación de ítems (Revelle, 1979), que se basa en una regla de división basada en el alfa de Cronbach para agrupar los ítems en escalas homogéneas.

Unas últimas palabras: Si utiliza R, hay dos paquetes muy buenos que le facilitarán los pasos mencionados:

  • psico le ofrece todo lo que necesita para iniciarse en los métodos psicométricos, incluido el análisis factorial ( fa , fa.parallel , principal ), la agrupación de elementos ( ICLUST y métodos afines), el alfa de Cronbach ( alpha ); en el sitio web de William Revelle hay un buen resumen, especialmente Una introducción a la teoría psicométrica con aplicaciones en R .
  • psy también incluye la visualización del diagrama de dispersión (mediante PCA + conjuntos de datos simulados) ( scree.plot ) y MTMM ( mtmm ).

Referencias

  1. Campbell, D.T. y Fiske, D.W. (1959). Validación convergente y discriminante mediante la matriz multirasgo-multimétodo. Boletín Psicológico , 56: 81-105.
  2. Hays, R.D. y Fayers, P. (2005). Evaluación de escalas de múltiples elementos. En Evaluación de la calidad de vida en los ensayos clínicos (Fayers, P. y Hays, R., Eds.), pp. 41-53. Oxford.
  3. Revelle, W. (1979). Hierarchical Cluster Analysis and the Internal Structure of Tests. Investigación conductual multivariante , 14: 57-74.

7voto

pauly Puntos 932

Tal y como leo su terminología, lo que quiere es evaluar primero la consistencia interna dentro de cada grupo de variables, y después evaluar las correlaciones entre las puntuaciones de las escalas que constituyen la media de cada grupo de variables. Lo primero puede hacerse mediante el alfa de Cronbach, y lo segundo mediante la correlación de Pearson. Esto supone que se tienen distribuciones razonablemente normales y relaciones razonablemente lineales.

Un método más complicado, y no necesariamente necesario, sería realizar un análisis factorial exploratorio. Se trataría de establecer qué variables deberían agruparse y, a continuación, hasta qué punto estarían correlacionados esos factores. Si intenta este método, asegúrese de utilizar la rotación oblicua para permitir que esas correlaciones aparezcan. El uso de la extracción de componentes principales o de la extracción de ejes principales dependerá, respectivamente, de si sus variables son mediciones objetivas y sin errores o de si son subjetivas, como los ítems de una encuesta que contienen una cierta cantidad de errores.

5voto

Eric Davis Puntos 1542
  • Las herramientas estándar, al menos en psicología, en su situación serían el análisis factorial exploratorio y confirmatorio para evaluar la convergencia de la matriz de correlación entre ítems con algún modelo propuesto de relación entre factores e ítems. La forma en que ha formulado su pregunta sugiere que podría no estar familiarizado con esta literatura. Por ejemplo, aquí están mis notas sobre el construcción de la escala y análisis factorial y aquí hay un Tutorial en R sobre el análisis factorial en forma de Quick-R . Por lo tanto, aunque vale la pena responder a su pregunta específica, creo que sus objetivos más amplios estarán mejor servidos si se examinan los enfoques de análisis factorial para evaluar las escalas de múltiples elementos y factores.

  • Otra estrategia estándar sería calcular las puntuaciones totales de cada grupo de variables (lo que yo llamaría una "escala") y correlacionar las escalas.

  • Muchas herramientas de análisis de fiabilidad informan de la correlación media entre elementos.

  • Si creó la matriz de 50 por 50 de correlaciones entre elementos, podría escribir una función en R que promediara subconjuntos basados en combinaciones de grupos de variables. Es posible que no obtenga lo que desea si tiene una mezcla de elementos positivos y negativos, ya que las correlaciones negativas podrían anular las correlaciones positivas.

2voto

Cd-MaN Puntos 7911

Sugeriría utilizar, en sustitución de la noción de correlación, que sólo se define para los pares, la noción de información mutua y de integración en los modelos gaussianos.

En los modelos gaussianos, integración de un grupo de variables $G_1$ se define como la entropía del grupo:

$I_1 \propto log(|C_1|)$

donde $C_1$ es la matriz de correlación del grupo de variables $G_1$ . Es fácil ver que si $G_1$ se compone sólo de 2 variables, su integración es $log ( 1 - \rho^2)$ que se relaciona directamente con el coeficiente de correlación por pares de las variables $\rho$ .

Para calcular la interacción entre dos grupos de variables, se puede utilizar la información mutua, que no es más que la entropía cruzada entre los grupos:

$MU_{12} = I_{12} - I_{1} - I_{2}$

He encontrado una referencia sobre estas nociones después de una rápida búsqueda en Google que podría ser útil.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X