Estoy comparando dos variables ordinales (es decir, dos elementos Likert independientes). He utilizado una prueba de chi-cuadrado para comprobar la significación de una relación entre las dos, y una correlación de Pearson (espero que las dos variables tengan una relación lineal) para comprobar la fuerza. Tengo un tamaño de muestra de 250 y estoy viendo una tabla de 4x5 (un elemento ordinal tiene cuatro enteros, y el otro tiene 5). Es cierto que no todas las celdas de la tabla de contingencia tienen un valor de al menos 5. Tras realizar las pruebas, he obtenido un valor p muy significativo para la chi-cuadrado (~10^-7), pero el coeficiente de correlación es bastante bajo (~0,2). ¿Puede alguien explicarme qué sentido tiene esto? ¿O estoy utilizando los métodos equivocados? ¿Cuál sería un método mejor?
Respuestas
¿Demasiados anuncios?Por razones pedagógicas, la correlación de Pearson no se recomienda para las variables ordinales. Incluso después de considerar el aspecto de las escalas de Likert de sus datos, yo seguiría siendo cauteloso a la hora de utilizar la correlación de Pearson debido al número de suposiciones que requiere.
Investigar las correlaciones de Spearman o Kendall en lugar de los efectos como si ambas medidas son dadas por cada persona, es decir, emparejadas, etc.
Otro pregunta similar que podría ser útil.
Mi primera pregunta es: ¿Cuál es la diferencia entre utilizar una prueba de Chi-cuadrado y la prueba de Rho de Spearman?
La prueba de chi-cuadrado trata ambas variables $X$ y $Y$ como nominales (como colores, países, etc.) y, por tanto, puede detectar cualquier tipo de relación subyacente entre $X$ y $Y$ . En cambio, las pruebas de correlaciones lineales o de rango aprovechan el hecho de que los niveles de los factores están ordenados y son especialmente adecuadas para detectar relaciones subyacentes lineales o monótonas. En su entorno, parece tener sentido condensar la relación en un coeficiente de correlación, por lo que sería más natural proporcionar valores p asociados a esa medida en lugar de la prueba de chi-cuadrado, menos centrada. Pero básicamente depende de usted.
Por supuesto, no puedes hacer todas las pruebas que conoces y elegir la que tenga el menor valor p. Lo ideal es seleccionar una estrategia de análisis antes de mirar los datos para evitar el fisgoneo de los mismos y acabar con conclusiones reproducibles.
P.D.: También puede utilizar las correlaciones lineales en lugar de las correlaciones de rango. Su prueba es básicamente la prueba de asociación "lineal por lineal" de Agresti, uno de los padrinos del moderno análisis de datos categóricos. Si le interesa, su famoso libro [1] merece la pena. Lo encontrará en cualquier biblioteca universitaria.
Y mi segunda pregunta es: ¿Por qué los coeficientes de correlación son tan bajos cuando la prueba de Chi-cuadrado parece significativa?
Un valor p pequeño significa una fuerte evidencia contra la hipótesis nula "no hay relación entre $X$ y $Y$ ". Dependiendo del tamaño de la muestra, una correlación muestral de 0,2 puede significar una evidencia extremadamente fuerte o, si la muestra es pequeña, poca evidencia contra esta hipótesis nula. O en otras palabras: el valor p no es una medida del tamaño del efecto.
[1] Agresti, A. (2002). Categorical Data Analysis, Second Edition. Hoboken, Nueva Jersey: John Wiley & Sons.