A raíz de esta pregunta: Imaginemos que queremos para la prueba de las diferencias en la tendencia central entre los dos grupos (por ejemplo, los machos y hembras) en una de Likert de 5 puntos elemento (por ejemplo, satisfacción con la vida: Insatisfecho que Satisfecho). Creo que un t-test sería lo suficientemente preciso para la mayoría de propósitos, pero que un arranque de prueba de diferencias entre los grupos de medios a menudo proporcionan la estimación más exacta de los intervalos de confianza. ¿Qué prueba estadística?
Respuestas
¿Demasiados anuncios?Clason y Dormody examinó la cuestión de la estadística de prueba para Likert de elementos (Análisis de los datos medidos por el individuo de tipo Likert de elementos). Creo que una prueba de bootstrap es aceptar cuando las dos distribuciones de aspecto similar (en forma de campana y la igualdad de la varianza). Sin embargo, una prueba para datos categóricos (por ejemplo, la tendencia o la prueba de Fisher, ordinal o regresión logística) sería muy interesante, ya que permite comprobar la respuesta de su distribución a través de las categorías de objetos, consulte Agresti, el libro de Análisis de Datos Categóricos (Capítulo 7 en los modelos Logit multinomial para las respuestas).
Aparte de esto, usted puede imaginar situaciones donde el t-test o cualquier otro test no paramétrico de fallar si la respuesta de distribución está fuertemente desequilibrada entre los dos grupos. Por ejemplo, si todas las personas del grupo a la respuesta 1 o 5 (en igual proporción), mientras que todas las personas en el grupo B de la respuesta 3, entonces termina con idénticos dentro del grupo y la prueba no es significativa en todos, aunque en este caso la homoscedasticity suposición es en gran parte violado.
En mi humilde opinión no se puede utilizar una prueba t para escalas Likert. La escala de Likert es una variable ordinal y "sabe" sólo acerca de las relaciones de los valores de una variable: por ejemplo, "totalmente insatisfecho" es peor que "de alguna manera satisfecho". Una prueba t en la otra parte necesita para calcular los medios, y más y por lo tanto de las necesidades de datos de intervalo. Puede asignar las puntuaciones de la escala de Likert para datos de intervalo ("totalmente insatisfecho" es 1, y así sucesivamente), pero nadie garantiza que "totalmente insatisfecho" está a la misma distancia "de alguna manera satisfecho" como "de alguna manera satisfecho" es de "ni ni". Por cierto: ¿cuál es la diferencia entre "totalmente insatisfecho" y "de alguna manera satisfecho"? Así que al final, te gustaría hacer un t-test en los valores codificados de su ordinal de los datos, sino que simplemente no tiene ningún sentido.
Si cada uno de los elementos en el cuestionario es ordinal, y no creo que este punto puede ser cuestionados, dado que no hay forma de saber si la diferencia cuantitativa entre "muy de acuerdo" y "de acuerdo" es la misma que entre "muy en desacuerdo" y "en desacuerdo", entonces ¿por qué la suma de todos estos ordinal nivel de escalas de producir un valor que comparte las propiedades de cierto nivel de intervalo de datos?
Por ejemplo, si estamos en la interpretación de los resultados de un inventario de depresión, no tiene sentido (al menos para mí) para decir que una persona con un puntaje de "20" es dos veces tan deprimido como una persona con una calificación de "10". Esto es debido a que cada elemento en el cuestionario no está midiendo las diferencias reales en los niveles de depresión (suponiendo que la depresión es un país estable, intenal, trastorno orgánico), sino la persona subjetiva de calificación de acuerdo con una declaración en particular. Cuando se le preguntó, "¿cómo deprimido usted diría que su estado de ánimo es en una escala de 1 a 4, siendo 1 muy deprimido y 4 no y deprimido", ¿cómo sé que una de las respuestas subjetivas de clasificación de 1 es igual a otro del demandado? O ¿cómo puedo saber si la diferencia entre el 4 y el 3 es el mismo que el de 3 y 4 en términos de la persona del actual nivel de depresión.Si no sabemos nada de esto, entonces no tiene ningún sentido para el tratamiento de la suma de todos estos ordinal elementos como el nivel de intervalo de datos. Incluso si los datos forman una distribución normal, creo que no es apropiado para el tratamiento de las diferencias entre las puntuaciones como a nivel de intervalo de datos si se calcula sumando todas las respuestas a un likert de elementos. Una distribución normal de los datos significa que las respuestas son, probablemente, representante de la greather de la población; aunque esto no implica que los valores obtenidos a partir de los inventarios de compartir las propiedades importantes de nivel de intervalo de datos.
Tenemos que ser cuidadosos en las ciencias del comportamiento sobre cómo usar la estadística para hablar con las variables latentes que estamos estudiando, ya que no hay una manera directa de medir estos constructos hipotéticos, no van a importantes problemas cuando se intenta cuantificar las somete a pruebas paramétricas. De nuevo, simplemente porque nos han asignado valores a un conjunto de respuestas no significa que las diferencias entre estos valores son significativos.