28 votos

Comparación de listas clasificadas

Supongamos que dos grupos, formados por $n_1$ y $n_2$ cada uno clasifica un conjunto de 25 elementos de mayor a menor importancia. ¿Cuál es la mejor manera de comparar estas clasificaciones?

Evidentemente, es posible hacer 25 pruebas U de Mann-Whitney, pero esto daría lugar a 25 resultados de pruebas que interpretar, lo que puede ser demasiado (y, en su uso estricto, plantea cuestiones de comparaciones múltiples). Tampoco me queda del todo claro que los rangos satisfagan todos los supuestos de esta prueba.

También me interesaría conocer la bibliografía sobre clasificación frente a ranking.

Un poco de contexto: Estos 25 puntos están todos relacionados con la educación y los dos grupos son diferentes tipos de educadores. Ambos grupos son pequeños.

EDIT en respuesta a @ttnphns:

No me refería a comparar la clasificación total de los elementos del grupo 1 con los del grupo 2; eso sería una constante, como señala @ttnphns. Pero las clasificaciones del grupo 1 y del grupo 2 serán diferentes; es decir, el grupo 1 puede clasificar el elemento 1 mejor que el grupo 2.

Podría compararlos, ítem por ítem, obteniendo la media o la mediana de cada ítem y haciendo 25 pruebas, pero me preguntaba si habría alguna forma mejor de hacerlo.

12voto

Carlos Lima Puntos 2579

Resumen

Comparto mis pensamientos en Detalles sección. Creo que son útiles para identificar lo que realmente queremos conseguir.

Creo que el principal problema aquí es que no se ha definido lo que significa una similitud de rango. Por lo tanto, nadie sabe qué método de medición de la diferencia entre los rangos es mejor.

Efectivamente, esto nos deja en la ambigüedad de elegir un método basado en conjeturas.

Lo que realmente sugiero es definir primero un objetivo matemático de optimización. Sólo entonces estaremos seguros de saber realmente lo que queremos.

A menos que hagamos eso, realmente no sabemos lo que queremos. Podríamos casi sabemos lo que queremos, pero casi sabiendo $\ne$ conociendo .

Mi texto en Detalles es esencialmente un paso para llegar a una definición matemática de rangos de similitud . Una vez que tengamos esto claro, podremos elegir con confianza el mejor método para medir dicha similitud.

Detalles

Basado en uno de tus comentarios:

  • " El objetivo es ver si las clasificaciones de los dos grupos difieren ", Peter Flom.

Para responder a esto mientras estrictamente interpretar el objetivo:

  • Los rangos son diferentes si, cualquier elemento $i \in \{1,2,\ldots,25\}$ existe $i$ tal que $a_i \ne b_i$ donde $a_i$ es el rango del elemento $i$ por grupo $a$ y $b_i$ es el rango del mismo artículo pero por grupo $b$ .
  • Por lo demás, los rangos no son diferentes.

Pero no creo que realmente quieras que estricto interpretación. Por lo tanto, creo que lo que realmente querías decir es:

  • ¿Cómo de diferentes son los rangos de los grupos $a$ y $b$ ?

Una solución consiste simplemente en medir el distancia mínima de edición . Es decir, ¿cuál es el número mínimo de ediciones que hay que realizar en la lista clasificada de grupo $a$ de forma que sea idéntica a la del grupo $b$ .

Una edición podría definirse como el intercambio de dos elementos, y los costes $n$ puntos en función del número de saltos necesarios. Así, si el elemento $1$ debe cambiarse por el elemento $3$ (para conseguir rangos idénticos entre los de los grupos $a$ y $b$ ), entonces el coste de esta edición es $3$ .

Pero, ¿es adecuado este método? Para responder a esta pregunta, profundicemos un poco más:

  • No está normalizada. Si decimos que la distancia entre rangos de grupos $a,b$ es $3$ mientras que la distancia entre los rangos de los grupos $c,d$ es $123$ no significa necesariamente que $a,b$ se parecen más entre sí que $c,d$ son entre sí (también podría significar que $c,d$ estaban clasificando un conjunto mucho mayor de elementos).

  • Supone que el coste de cada edición es lineal con respecto al número de saltos. ¿Es esto cierto para nuestro dominio de aplicación? ¿Podría ser que un logística relación es más adecuada? ¿O una exponencial ¿Uno?

  • Supone que todos los elementos tienen la misma importancia. Por ejemplo, desacuerdo en la clasificación de un elemento (digamos) $1$ se trata de forma idéntica al desacuerdo en la clasificación del elemento (digamos) $5$ . ¿Es esto cierto en su ámbito? Por ejemplo, si estamos clasificando libros, ¿es igual de importante no estar de acuerdo en la clasificación de un libro famoso como TAOCP que en la clasificación de un libro terrible como TAOUP ?

Una vez que abordemos los puntos anteriores y alcancemos una medida adecuada de la similitud entre dos rangos, tendremos que plantearnos preguntas más interesantes, como:

  • ¿Cuál es la probabilidad de observar tales diferencias, o diferencias más extremas, si la diferencia entre los grupos $a$ y $b$ ¿se debió sólo al azar?

7voto

Michael Osl Puntos 168

Advertencia: es una gran pregunta y no sé la respuesta, así que esto es más bien un "qué haría yo si tuviera que hacerlo":

En este problema hay muchos grados de libertad y muchas comparaciones que se pueden hacer, pero con datos limitados es realmente una cuestión de agregar datos de manera eficiente. Si no sabes qué prueba realizar, siempre puedes "inventar" una utilizando permutaciones:

Primero definimos dos funciones:

  • Función de votación cómo puntuar las clasificaciones para poder combinar todas las clasificaciones de un mismo grupo. Por ejemplo, se podría asignar 1 punto al elemento mejor clasificado y 0 a todos los demás. Sin embargo, se perdería mucha información, por lo que tal vez sea mejor utilizar algo como: el elemento mejor clasificado obtiene 1 punto, el segundo clasificado 2 puntos, etc.

  • Función de comparación : Cómo comparar dos puntuaciones agregadas entre dos grupos. Dado que ambos serán un vector, tomar una norma adecuada de la diferencia funcionaría.

Ahora haz lo siguiente:

  1. En primer lugar, calcule un estadístico de prueba calculando la puntuación media utilizando la función de votación para cada elemento de los dos grupos, lo que debería dar lugar a dos vectores de tamaño 25.
  2. A continuación, compare los dos resultados mediante la función de comparación, que será su estadística de prueba.

El problema es que no conocemos la distribución del estadístico de la prueba bajo la hipótesis nula de que ambos grupos sean iguales. Pero si son iguales, podríamos barajar aleatoriamente las observaciones entre los grupos.

Así, podemos combinar los datos de dos grupos, barajarlos/permutarlos, elegir el primero $n_1$ (número de observaciones en el grupo original A) observaciones para el grupo A y el resto para el grupo B. Calcule ahora el estadístico de prueba para esta muestra utilizando los dos pasos anteriores.

Repita el proceso unas 1000 veces y utilice ahora los estadísticos de la prueba de permutación como distribución empírica nula. Esto le permitirá calcular un valor p, y no se olvide de hacer un bonito histograma y dibujar una línea para su estadística de prueba así:

histogram permutation test l1

Ahora, por supuesto, se trata de elegir las funciones de votación y comparación adecuadas para obtener una buena potencia. Eso realmente depende de su objetivo y la intuición, pero creo que mi segunda sugerencia para la función de votación y la $l_1$ La norma es un buen punto de partida. Tenga en cuenta que estas opciones pueden marcar una gran diferencia. En el gráfico anterior se utilizó la $l_1$ y estos son los mismos datos con una $l_2$ norma:

histogram permutation test l2

Pero dependiendo del escenario, supongo que puede haber mucha aleatoriedad intrínseca y necesitarás un tamaño de muestra bastante grande para que funcione un método general. Si tiene conocimientos previos sobre aspectos específicos que cree que pueden ser diferentes entre los dos grupos (por ejemplo, elementos específicos), utilícelos para adaptar sus dos funciones. (Por supuesto, el método hazlo antes de realizar la prueba y no selecciones diseños hasta que obtengas algo significativo se aplica)

PS dispararme un mensaje si usted está interesado en mi (desordenado) código. Es un poco demasiado largo para añadirlo aquí, pero estaría encantado de subirlo.

5voto

johnh Puntos 525

Esto se parece a la "prueba de rango con signo de Willcoxon" ( enlace wikipedia ). Suponiendo que los valores de sus rangos sean del mismo conjunto (es decir [1, 25] ), se trata de una prueba de diferencias emparejadas (siendo la hipótesis nula que estos pares se eligieron al azar). Nota: ¡se trata de una puntuación de disimilitud!

Hay dos R y Python enlazadas en esa página wiki.

3voto

Alistair Christie Puntos 659

En "Sequential rank agreement methods for comparison of ranked lists" Ekstrøm et al. discuten esto en detalle (incluyendo un estudio de las técnicas existentes hacia 2015) al tiempo que introducen una nueva medida llamada "sequential rank agreement". Está disponible en arxiv en: https://arxiv.org/pdf/1508.06803.pdf . El resumen lo dice mejor de lo que yo podría:

La comparación de clasificaciones alternativas de un conjunto de elementos es una tarea general y destacada de la estadística aplicada. Las variables predictoras se se clasifican según la magnitud de la asociación con un resultado, los modelos de predicción clasifican a los sujetos según el riesgo personalizado de un acontecimiento y los estudios genéticos clasifican los genes según su diferencia en la probabilidad de que se produzca un evento. de un acontecimiento, y los estudios genéticos clasifican los genes según su de expresión génica. Este artículo construye medidas de la concordancia de dos o más listas ordenadas. Utilizamos la desviación estándar de los rangos para definir una medida de concordancia que proporcione una in una interpretación intuitiva y puede aplicarse a cualquier número de listas incluso si algunas o todas están incompletas o censuradas. Este método permite identificar puntos de cambio en la concordancia de las listas y los cambios secuenciales de acuerdo en función de la profundidad de las listas pueden compararse gráficamente con un conjunto de referencia basado en permutaciones. La utilidad de Estas herramientas se ilustran con clasificaciones de genes y datos de dos estudios daneses sobre el cáncer de ovario. dos estudios daneses sobre el cáncer de ovario, en los que se evalúa la concordancia intra e entre los distintos métodos de clasificación estadística.

Como se indica en muchas de las otras respuestas, cada una de estas técnicas proporcionará un resumen diferente de esas diferencias y la selección de cuál es la más adecuada para su aplicación es ... bueno, ... específica de la aplicación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X