7 votos

Diferencias entre la correlación tetracórica y la de Pearson

Actualmente estoy analizando unos 300 artículos en el ámbito de la educación.

Me interesa la dimensionalidad del conjunto de datos. Así que calculo una matriz de correlación tetracorriente. El objetivo es hacer un análisis factorial sobre esta matriz.

Por curiosidad comparo con una matriz de correlación de Pearson, y los resultados son diferentes. Cuando calculo las diferencias entre las matrices tengo ligeras diferencias : no hay media nula con mínimos y máximos que van desde $-0.3$ a $0.3$ .

¿Alguna idea? Normalmente se lee que, para el elemento dicotómico, los valores son cerrados.

Además, tengo valores perdidos porque, debido a los artículos muy difíciles y muy fáciles, algunas modalidades nunca se observan juntas. En este caso, ¿tiene alguna buena propuesta (y razones) para manejar este problema? Suprimir estos ítems, Imputación, ...

6voto

Akira Puntos 1061

El coeficiente tetracórico y el coeficiente Phi son efectivamente diferentes. El coeficiente tetracórico es adecuado para el siguiente problema: Supongamos que hay dos jueces que juzgan pasteles, digamos, en alguna escala continua, y luego, basándose en un corte fijo, quizás desconocido, pronuncian los pasteles como "malos" o "buenos". Supongamos que la métrica continua latente de los dos jueces tiene un coeficiente de correlación $\rho$ . Ahora genere 300 pasteles, haga que ambos jueces prueben cada uno de ellos, y genere una tabla de contingencia 2x2 de "juez 1 malo/bueno" frente a "juez 2 malo/bueno". A partir de los datos de esta tabla de contingencia, el coeficiente tetracórico muestral es un estimador (creo que es el MLE, de hecho), de la correlación "latente $\rho$ . Obsérvese que no es necesario conocer los puntos de corte empleados por los dos jueces. El coeficiente Phi considera los pronunciamientos "malos", "buenos" en sí mismos como la variable de interés, codificada como 0/1, y es el coeficiente de Pearson muestral de los datos 0/1. No es lo mismo.

editar en respuesta a los comentarios de @pbneau: mi sospecha era que los coeficientes tetracoico y phi divergirían en los casos límite: como $\rho \to 0$ y a medida que los puntos de corte de la calificación latente se alejan de las calificaciones medias. He probado esto con mi propio código (en Matlab) para el coeficiente tetracórico y phi. Probé con calificaciones latentes gaussianas de media cero y varianza unitaria con correlaciones poblacionales de 0,01 y 0,25, y con cortes de 0,0 y 1,5,-0,5. Realicé 2048 experimentos, cada uno con 2048 "pasteles". Aquí se muestran los ajustes de dispersión de tetracorriente frente a phi: bunch o scatter fits

(parece que lo de subir imágenes no funciona; la fila superior es $c1 = c2 = 0$ , el fondo es $c1 = 1.5, c2 = -0.5$ La columna de la izquierda es $\rho = 0.01,$ La columna de la derecha es $\rho = 0.25$ . Los mejores ajustes a lo largo de la fila superior son $\rho^* = 1.5 \phi + 0$ , $\rho^* = 1.4 \phi + 0.01$ a lo largo de la fila inferior, $\rho^* = 2.2 \phi$ y $\rho^* = 3.1 \phi - 0.04$ . tal vez pueda conseguir esta imagen alojada en otro lugar que no los aplaste tanto...)

No estoy seguro de que se pueda leer el texto (la vista previa se ve mal); el resultado es que cuando los límites están en la media de la población, y por lo tanto las tablas de contingencia están "equilibradas" en filas y columnas (fila superior de los gráficos), se obtiene una buena correlación entre las dos métricas, pero la tetracorriente tiende a ser un poco más grande que phi. Cuando las tablas de corte están algo desequilibradas, se obtiene una correlación ligeramente peor entre las métricas, y el phi parece "menearse" hacia el cero.

Por tanto, mi intuición inicial era correcta a medias: el peor caso parece ser el de la $\rho$ se mueve fuera de cero, y los puntos de corte se alejan de las medias latentes.

3voto

Tyson Phalp Puntos 156

Bueno, creo que ya se ha abordado ampliamente antes como el debate PEARSON-YULE

La discrepancia entre ambas medidas parece provenir del hecho de que una asume una variable aleatoria discreta subyacente mientras que para la otra, el rasgo subyacente (latente) es continuo. Aparentemente existe una relación biyectiva entre ambas según Ekkstrom (2008). No es una tarea fácil para mí desarrollar todo el pensamiento, el documento de Ekstrom lo hace de una manera clara.

El documento de Ekstrom http://statistics.ucla.edu/preprints/uclastat-preprint-2008:40

-1voto

DavLink Puntos 101

Mi mejor apuesta es que usted está enfrentando un gran desequilibrio entre sus categorías de respuesta, para algunos de sus artículos.

Si asume que sus respuestas binarias reflejan ubicaciones individuales en un rasgo latente subyacente (es decir, continuo), entonces correlacionar las dos variables está bien, siempre que el corte esté cerca de la media de la densidad bivariada, como se muestra a continuación (aquí los cortes se establecieron simétricamente en $(.5,.5)$ para una correlación de 0,5):

alt text

En este caso, la correlación de Pearson subestimará la verdadera relación lineal entre los dos rasgos latentes, especialmente en el rango medio de la métrica de correlación. Por otro lado, cuando los puntos de corte son claramente asimétricos en ambas variables continuas, la correlación tetracórica generalmente sobreestimará la verdadera relación. La siguiente imagen ilustra el caso ideal.

library(polycor)
set.seed(101)
n <- 500
rho <- seq(0,1,length=500)
pc1 <- pc2 <- tc <- numeric(500)

for (i in 1:500) {
  data <- rmvnorm(n, c(0, 0), matrix(c(1, rho[i], rho[i], 1), 2, 2))
  x <- data[,1]; y <- data[,2]
  xb <- ifelse(x>=mean(x), 1, 0); yb <- ifelse(y>=mean(y), 1, 0)
  pc1[i] <- cor(x, y)
  pc2[i] <- cor(xb, yb)
  tc[i] <- polychor(xb, yb)
}

plot(pc1, pc2, cex=.6, col="red", xlab="True linear relationship",
     ylab="Observed correlation")
lines(lowess(pc1, pc2), col="red", lwd=2)
abline(0, 1, col="lightgray")
points(pc1, tc, cex=.6, col="blue")
lines(lowess(pc1, tc), col="blue", lwd=2)
legend("topleft", c("Pearson (0/1)","Tetrachoric"), col=c(2,4), lty=1, bty="n")

alt text

Ahora, puedes jugar con el valor del corte, $\tau$ y ver qué ocurre cuando es asimétrica y se aleja en gran medida de la media de la densidad conjunta de $x$ y $y$ .

Para complementar la respuesta de @shabbychef, el coeficiente phi se utiliza generalmente con variables "verdaderamente" categóricas (no se hacen hipótesis sobre un proceso generador continuo) y se reduce a la correlación de Pearson en este caso ( $\sqrt{\chi^2}/n$ ). El problema es entonces factorizar una matriz de correlación construida de esta manera, porque las comunalidades pierden su sentido.

Para evitar este problema, podemos recurrir a un modelo paramétrico de respuesta al ítem, por ejemplo, un modelo logístico de efectos mixtos (en este caso, no hay que preocuparse por el corte, ya que se estima), o un modelo no paramétrico, como el escalamiento de Mokken. En el último caso, sólo asumimos monotonicidad en el rasgo latente, pero ninguna forma funcional que relacione la ubicación de uno en el rasgo latente y el resultado (es decir, la probabilidad de aprobar el artículo). Sin embargo, en su caso, sería una molestia y no le permitiría identificar una estructura en su matriz de correlación. Pero se puede utilizar después.

Por último, John Uebersax ofrece un debate en profundidad sobre el uso de la correlación tetracórica en relación con el modelado de rasgos latentes, véase Introducción a los coeficientes de correlación tetracórica y policórica . Además, Nunnally discutió hace tiempo las ventajas/desventajas de basarse en Pearson contra. Coeficientes de correlación tetracórica en el análisis factorial, véase, por ejemplo, las páginas 570-573 (3ª ed.).

Referencias

  1. O'Connor, B. Precauciones sobre los análisis factoriales a nivel de ítems .
  2. Bernstein, I.H., Teng, G. (1989). La factorización de los ítems y la factorización de las escalas son diferentes: evidencia espuria de la multidimensionalidad debido a la categorización de los ítems. Boletín Psicológico , 105 , 467-477.
  3. Edwards, J.H. y Edwards, A.W.F. (1984). Approximating the tetrachoric correlation coefficient. Biometría , 40 , 563.
  4. Castellan, N.J. (1966). Sobre la estimación del coeficiente de correlación tetracórica. Psychometrika , 31(1) , 67-73.
  5. Fitzgerald, P., Knuiman, M.W., Divitini, M.L., y Bartholomew, H.C. (1999). Effect of dichotomising a continuous variable on the assessment of familial aggregation: an empirical study using body mass index data from the Busselton Health Study. J. Epidemiol. Biostat. , 4(4) , 321-327.
  6. Nunnally, J.C. y Bernstein, I.H. (1994). Teoría psicométrica (Tercera ed.). McGraw-Hill.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X