Resumen
Comparto mis pensamientos en Detalles sección. Creo que son útiles para identificar lo que realmente queremos conseguir.
Creo que el principal problema aquí es que no se ha definido lo que significa una similitud de rango. Por lo tanto, nadie sabe qué método de medición de la diferencia entre los rangos es mejor.
Efectivamente, esto nos deja en la ambigüedad de elegir un método basado en conjeturas.
Lo que realmente sugiero es definir primero un objetivo matemático de optimización. Sólo entonces estaremos seguros de saber realmente lo que queremos.
A menos que hagamos eso, realmente no sabemos lo que queremos. Podríamos casi sabemos lo que queremos, pero casi sabiendo $\ne$ conociendo .
Mi texto en Detalles es esencialmente un paso para llegar a una definición matemática de rangos de similitud . Una vez que tengamos esto claro, podremos elegir con confianza el mejor método para medir dicha similitud.
Detalles
Basado en uno de tus comentarios:
- " El objetivo es ver si las clasificaciones de los dos grupos difieren ", Peter Flom.
Para responder a esto mientras estrictamente interpretar el objetivo:
- Los rangos son diferentes si, cualquier elemento $i \in \{1,2,\ldots,25\}$ existe $i$ tal que $a_i \ne b_i$ donde $a_i$ es el rango del elemento $i$ por grupo $a$ y $b_i$ es el rango del mismo artículo pero por grupo $b$ .
- Por lo demás, los rangos no son diferentes.
Pero no creo que realmente quieras que estricto interpretación. Por lo tanto, creo que lo que realmente querías decir es:
- ¿Cómo de diferentes son los rangos de los grupos $a$ y $b$ ?
Una solución consiste simplemente en medir el distancia mínima de edición . Es decir, ¿cuál es el número mínimo de ediciones que hay que realizar en la lista clasificada de grupo $a$ de forma que sea idéntica a la del grupo $b$ .
Una edición podría definirse como el intercambio de dos elementos, y los costes $n$ puntos en función del número de saltos necesarios. Así, si el elemento $1$ debe cambiarse por el elemento $3$ (para conseguir rangos idénticos entre los de los grupos $a$ y $b$ ), entonces el coste de esta edición es $3$ .
Pero, ¿es adecuado este método? Para responder a esta pregunta, profundicemos un poco más:
-
No está normalizada. Si decimos que la distancia entre rangos de grupos $a,b$ es $3$ mientras que la distancia entre los rangos de los grupos $c,d$ es $123$ no significa necesariamente que $a,b$ se parecen más entre sí que $c,d$ son entre sí (también podría significar que $c,d$ estaban clasificando un conjunto mucho mayor de elementos).
-
Supone que el coste de cada edición es lineal con respecto al número de saltos. ¿Es esto cierto para nuestro dominio de aplicación? ¿Podría ser que un logística relación es más adecuada? ¿O una exponencial ¿Uno?
-
Supone que todos los elementos tienen la misma importancia. Por ejemplo, desacuerdo en la clasificación de un elemento (digamos) $1$ se trata de forma idéntica al desacuerdo en la clasificación del elemento (digamos) $5$ . ¿Es esto cierto en su ámbito? Por ejemplo, si estamos clasificando libros, ¿es igual de importante no estar de acuerdo en la clasificación de un libro famoso como TAOCP que en la clasificación de un libro terrible como TAOUP ?
Una vez que abordemos los puntos anteriores y alcancemos una medida adecuada de la similitud entre dos rangos, tendremos que plantearnos preguntas más interesantes, como:
- ¿Cuál es la probabilidad de observar tales diferencias, o diferencias más extremas, si la diferencia entre los grupos $a$ y $b$ ¿se debió sólo al azar?