Tal vez sea demasiado tarde pero de todas formas añado mi respuesta...
Depende de lo que pretendas hacer con tus datos: Si estás interesado en mostrar que las puntuaciones difieren al considerar diferentes grupos de participantes (género, país, etc.), puedes tratar tus puntuaciones como valores numéricos, siempre que cumplan con las suposiciones habituales sobre la varianza (o forma) y el tamaño de la muestra. Si estás más interesado en resaltar cómo varían los patrones de respuesta en subgrupos, entonces deberías considerar las puntuaciones de los ítems como elección discreta entre un conjunto de opciones de respuesta y buscar modelado log-lineal, regresión logística ordinal, modelos de respuesta a ítems u cualquier otro modelo estadístico que permita abordar ítems politómicos.
Como regla general, generalmente se considera que tener 11 puntos distintos en una escala es suficiente para aproximar una escala de intervalo (para fines de interpretación, ver el comentario de @xmjx). Los ítems de Likert pueden considerarse como una escala ordinal verdadera, pero a menudo se utilizan como numéricos y podemos calcular su media o DE. Esto se hace a menudo en encuestas de actitud, aunque es prudente informar tanto la media/DE como el % de respuesta en, por ejemplo, las dos categorías más altas.
Cuando se utilizan puntuaciones de escala sumadas (es decir, sumamos la puntuación en cada ítem para calcular una "puntuación total"), se pueden aplicar estadísticas habituales, pero debes tener en cuenta que ahora estás trabajando con una variable latente ¡por lo que el constructo subyacente debe tener sentido! En psicometría, generalmente comprobamos que (1) la unidimensionalidad de la escala se mantiene, (2) la fiabilidad de la escala es suficiente. Al comparar dos puntuaciones de escala de este tipo (para dos instrumentos diferentes), incluso podríamos considerar el uso de medidas de correlación atenuadas en lugar del coeficiente de correlación de Pearson clásico.
Los libros clásicos incluyen:
1. Nunnally, J.C. y Bernstein, I.H. (1994). Psychometric Theory (3a ed.). Serie de McGraw-Hill en Psicología.
2. Streiner, D.L. y Norman, G.R. (2008). Health Measurement Scales. A practical guide to their development and use (4a ed.). Oxford.
3. Rao, C.R. y Sinharay, S., Eds. (2007). Handbook of Statistics, Vol. 26: Psychometrics. Elsevier Science B.V.
4. Dunn, G. (2000). Statistics in Psychiatry. Arnold de Hodder.
También puedes echar un vistazo a Applications of latent trait and latent class models in the social sciences, de Rost & Langeheine, y al sitio web de W. Revelle sobre investigación de la personalidad.
Cuando se valida una escala psicométrica, es importante observar los llamados efectos de techo/suelo (asimetría grande resultante de participantes que puntúan en la categoría de respuesta más baja/alta), lo cual puede impactar seriamente en cualquier estadística calculada al tratarlos como variable numérica (por ejemplo, agregación por país, t-test). Esto plantea problemas específicos en estudios interculturales, ya que se sabe que la distribución de respuestas en general en encuestas de actitud o salud difiere de un país a otro. Por ejemplo, las personas chinas vs. las procedentes de países occidentales tienden a resaltar patrones de respuesta específicos, siendo que las primeras generalmente tienen puntuaciones más extremas a nivel de ítems, ver por ejemplo Song, X.-Y. (2007) Análisis de modelos de ecuaciones estructurales de múltiples muestras con aplicaciones a datos de Calidad de Vida, in Handbook of Latent Variable and Related Models, Lee, S.-Y. (Ed.), pp 279-302, North-Holland).
Más en general, deberías consultar la literatura relacionada con la psicometría que hace un uso extensivo de ítems de Likert si estás interesado en temas de medición. Se han desarrollado varios modelos estadísticos que actualmente se agrupan bajo el marco de la Teoría de la Respuesta al Ítem.
6 votos
Técnicamente, las escalas Likert son la suma de elementos de tipo Likert y, como tal, terminan siendo una aproximación razonable (al menos según muchos psicometristas en Psicología) de un punto de datos de intervalo.
2 votos
@drknexus - Entonces, ¿varios elementos sirven como una triangulación de medición para escalas de construcción? Si es así, ¿cuáles son los criterios para determinar si un investigador tiene suficientes puntos de datos relevantes (es decir, elementos) para usar la escala como una medición de intervalo?
2 votos
No estoy seguro; esa podría ser una pregunta valiosa para la comunidad en general. Supongo que probablemente en parte sea un juicio de valor por parte del investigador y del área. Algunas áreas están completamente dispuestas a tratar un solo ítem Likert como intervalo, aunque claramente es ordinal. Una respuesta razonable podría ser usar un método de análisis diferente, por ejemplo, una prueba de permutación o bootstrap. Otra respuesta podría ser realizar una prueba simple de normalidad, siempre y cuando el conjunto no se aleje significativamente de la normalidad, probablemente estará bien.
1 votos
... pero en general parece que se podría evocar el teorema del límite central y sugerir que 20 a 30 ítems deberían ser suficientes para usar la escala como una medición de intervalo.