28 votos

Calcular la media de una variable ordinal

He leído en varios lugares que calcular la media de una variable ordinal no es apropiado. Estoy tratando de comprender por qué podría ser inapropiado. Creo que es porque, en general, una variable ordinal no sigue una distribución normal y por lo tanto calcular la media dará una representación inexacta. ¿Podría alguien dar un razonamiento más detallado sobre por qué podría ser inapropiado calcular la media de una variable ordinal?

11 votos

Para calcular la media, primero necesitas una suma. Para que una suma tenga sentido, necesitas que 4+2 sea igual a 3+3; de forma equivalente, necesitas que 4-3 = 3-2 = 2-1. Con datos ordinales, incluso cuando sus categorías están etiquetadas como "1", "2", "3", "4", este no es necesariamente el caso (bastante explícitamente).

0 votos

¿Y por qué la mediana sería más apropiada que la media aritmética?

33voto

Nick Cox Puntos 22819

Una respuesta breve es que esto es controvertido. Contrariamente al consejo que mencionas, personas en muchos campos sí toman medidas de escalas ordinales y a menudo están contentos de que las medidas hagan lo que desean. Los promedios de calificaciones o su equivalente en muchos sistemas educativos son un ejemplo.

Sin embargo, que los datos ordinales no estén normalmente distribuidos no es una razón válida, porque la media es

  • ampliamente utilizada para distribuciones no normales

  • bien definida matemáticamente para muchas distribuciones no normales, excepto en algunos casos patológicos.

Puede que no sea una buena idea usar la media en la práctica si los datos definitivamente no están normalmente distribuidos, pero eso es diferente.

Una razón más fuerte para no usar la media con datos ordinales es que su valor depende de convenciones de codificación. Los códigos numéricos como 1, 2, 3, 4 generalmente son elegidos por simplicidad o conveniencia, pero en principio podrían igualmente ser 1, 23, 456, 7890 en cuanto a corresponder a un orden definido. Tomar la media en cualquiera de esos casos implicaría tomar esas convenciones literalmente (es decir, como si los números no fueran arbitrarios, sino justificables), y no hay fundamentos rigurosos para hacer eso. Necesitas una escala de intervalo en la cual las diferencias iguales entre valores se puedan tomar literalmente para justificar el cálculo de medias. Eso considero que es el argumento principal, pero como ya se ha indicado, las personas a menudo lo ignoran deliberadamente, porque encuentran útiles las medias, sin importar lo que digan los teóricos de la medición.

Aquí hay un ejemplo adicional. A menudo se pide a las personas que elijan una de las opciones "fuertemente en desacuerdo"... "fuertemente de acuerdo" y (dependiendo en parte de lo que el software requiera) los investigadores codifican eso como 1... 5 o 0... 4 o lo que deseen, o lo declaran como un factor ordenado (o cualquier término que utilice el software). Aquí la codificación es arbitraria y está oculta a las personas que responden la pregunta.

Pero a menudo también se les pide a las personas (por ejemplo) en una escala de 1 a 5, ¿cómo califican algo? Los ejemplos abundan: sitios web, deportes, otros tipos de competiciones y de hecho la educación. Aquí se les muestra a las personas una escala y se les pide que la utilicen. Se entiende ampliamente que los no enteros tienen sentido, pero simplemente se les permite usar enteros como una convención. ¿Es esta una escala ordinal? Algunos dicen que sí, otros dicen que no. Dicho de otra manera, parte del problema es que lo que es una escala ordinal es en sí misma un área borrosa o debatida.

Considera nuevamente las calificaciones para el trabajo académico, digamos de E a A. A menudo esas calificaciones también se tratan numéricamente, digamos de 1 a 5, y rutinariamente las personas calculan promedios para estudiantes, cursos, escuelas, etc. y realizan análisis adicionales de esos datos. Aunque sigue siendo cierto que cualquier mapeo a puntajes numéricos es arbitrario pero aceptable siempre y cuando preserve el orden, sin embargo, en la práctica las personas que asignan y reciben las calificaciones saben que los puntajes tienen equivalentes numéricos y saben que las calificaciones se promediarán.

Una razón pragmática para usar medias es que las medianas y modas a menudo son resúmenes pobres de la información en los datos. Supongamos que tienes una escala que va de fuertemente en desacuerdo a fuertemente de acuerdo y por conveniencia codificas esos puntos como 1 a 5. Ahora imagina una muestra codificada como 1, 1, 2, 2, 2 y otra como 1, 2, 2, 4, 5. Ahora levanta la mano si piensas que la mediana y la moda son los únicos resúmenes justificables porque es una escala ordinal. Ahora levanta la mano si encuentras útil también la media, independientemente de si las sumas están bien definidas, etc.

Naturalmente, la media sería un resumen híper sensible si los códigos fueran los cuadrados o cubos de 1 a 5, por ejemplo, y eso podría no ser lo que deseas. (¡Si tu objetivo es identificar rápidamente a los mejores, podría ser exactamente lo que deseas!) Pero precisamente por eso la codificación convencional con códigos enteros sucesivos es una elección práctica, porque a menudo funciona bastante bien en la práctica. Ese no es un argumento que tenga peso con los teóricos de la medición, ni debería, pero los analistas de datos deberían estar interesados en producir resúmenes ricos en información.

Estoy de acuerdo con cualquiera que diga: usa toda la distribución de frecuencias de calificaciones, pero ese no es el punto en cuestión.

1 votos

Una gran respuesta y pragmatismo es importante, pero agregaría una nota de precaución. Una buena razón para solo utilizar métodos formalmente establecidos es que se obtiene acceso a estimaciones de certeza, etc. Por ejemplo, si tenemos dos promedios de calificaciones, digamos 4.53 y 4.34, es posible que deseemos saber si uno es "significativamente" mejor que el otro. Pero debido a la falta de formalidad en el promedio de las calificaciones, no obtenemos cosas como intervalos de confianza, etc.

1 votos

@StephenMcAteer Veo tu punto en cuanto a los métodos enseñados en un texto o curso introductorio típico. Pero si ese fuera el deseo, el arranque rápido ha proporcionado una tecnología que permite intervalos de confianza desde hace casi 40 años.

4voto

SAAN Puntos 302

Supongamos que tomamos valores ordinales, por ejemplo, 1 para "muy en desacuerdo", 2 para "en desacuerdo", 3 para "de acuerdo" y 4 para "muy de acuerdo". Si cuatro personas dan las respuestas 1, 2, 3 y 4, ¿cuál sería la media? Es (1 + 2 + 3 + 4) / 4 = 2.50.

¿Cómo se debería interpretar eso cuando el promedio de las respuestas de las cuatro personas es "en desacuerdo o de acuerdo"? Por eso no debemos usar la media para datos ordinales.

3 votos

Jugando un poco al abogado del diablo, en este ejemplo, interpretaría 2.5 como estando a mitad de camino entre 2, "discrepar", y 3, "estar de acuerdo". Esto tiene sentido como promedio dado que tenemos "discrepar fuertemente" vs "estar de acuerdo fuertemente", y "discrepar" vs "estar de acuerdo".

2 votos

Estar de acuerdo con un promedio de 2.5 en este contexto todavía tiene sentido para mí, está a medio camino entre estar en desacuerdo y estar de acuerdo, o en otras palabras, neutral.

4 votos

Creo que Azeem necesita un ejemplo más sólido. Podrías objetar a 2.5 como el promedio de 1, 2, 3, 4 hijos por familia en los mismos términos, ¿cómo se interpreta eso si no es uno de los valores definidos? Eso plantea diferentes problemas.

3voto

Lohoris Puntos 301

Estoy totalmente de acuerdo con @Azeem. Pero solo para reforzar este punto, permítanme explicarlo un poco más.

Imaginemos que tienes datos ordinales como en el ejemplo de @Azeem, donde tu escala varía del 1 al 4. Y también imaginemos que tienes un par de personas evaluando algo (como el Helado) en esta escala. Supongamos que obtienes los siguientes resultados:

  • Persona A dijo 4
  • Persona B dijo 3
  • Persona C dijo 1
  • Persona D dijo 2

Cuando quieres interpretar los resultados, puedes concluir algo así:

  • Persona A le gustó más el Helado que a la Persona B
  • Persona D le gustó más el Helado que a la Persona C

Sin embargo, no sabes nada sobre los intervalos entre las calificaciones. ¿Es la diferencia entre 1 y 2 la misma que entre 3 y 4? ¿Significa realmente una calificación de 4 que a la persona le gusta el Helado 4 veces más que a alguien que lo califica como 1? Y así sucesivamente... Cuando calculas la media aritmética, tratas los números como si las diferencias entre ellos fueran iguales. Pero esa es una suposición bastante fuerte con datos ordinales y tendrías que justificarla.

1 votos

Edite la referencia a la respuesta anterior. Las respuestas pueden cambiar de orden y de hecho la respuesta que estaba arriba en este momento está abajo, y eso puede cambiar. Por lo tanto, hacer referencia a los autores, no a la posición.

0 votos

SAAN publicó como Azeem en 2013.

0voto

Osw Puntos 138

Estoy de acuerdo con el concepto de que la media aritmética no puede ser verdaderamente justificada en datos de escala ordinal. En lugar de calcular la media, podemos usar la moda o la mediana en tales situaciones, lo cual puede brindarnos una interpretación más significativa de nuestros resultados.

0 votos

Esto no aborda la pregunta de por qué podría ser inapropiado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X