25 votos

Clasificación general de varias listas

He mirado a través de una gran cantidad de literatura disponible en línea, incluyendo este foro sin suerte y con la esperanza de que alguien puede ayudar a un problema estadístico que se enfrentan actualmente:

Tengo 5 listas de datos clasificados, cada una de las cuales contiene 10 elementos clasificados de la posición 1 (la mejor) a la posición 10 (la peor). Por razones de contexto, los 10 elementos de cada lista son los mismos, pero en diferentes órdenes de clasificación, ya que la técnica utilizada para decidir su rango es diferente.

Ejemplo de datos:

            List 1      List 2      List 3     ... etc
Item 1     Ranked 1    Ranked 2    Ranked 1     
Item 2     Ranked 3    Ranked 1    Ranked 2
Item 3     Ranked 2    Ranked 3    Ranked 3
... etc

Busco una forma de interpretar y analizar los datos anteriores de manera que obtenga un resultado final que muestre la clasificación general de cada elemento en función de cada prueba y su posición, por ejemplo

Result
Rank 1 = Item 1
Rank 2 = Item 3
Rank 3 = Item 4
... etc

Hasta ahora he intentado interpretar esta información realizando las pruebas de correlación de Pearson, correlación de Spearman, B de Kendall Tau y Friedman. Sin embargo, me he dado cuenta de que estos resultados generalmente han emparejado mis listas (es decir, comparado la lista 1 con la lista 2, luego la lista 1 con la lista 3, etc.), o han producido resultados como Chi-cuadrado, valores P, etc. sobre los datos globales.

¿Alguien sabe cómo puedo interpretar estos datos con un método estadísticamente sólido (a nivel de posgrado o doctorado) para comprender las clasificaciones generales que indican la importancia de cada elemento de la lista en las 5 pruebas? O, si hay otro tipo de técnica o prueba estadística que pueda utilizar, le agradecería cualquier sugerencia u orientación.

(Tal vez merezca la pena señalar que también he utilizado técnicas matemáticas más sencillas, como sumas, promedios, pruebas de mínimos y máximos, etc., pero no considero que sean lo suficientemente importantes desde el punto de vista estadístico a este nivel).

Cualquier ayuda o consejo será muy apreciado, gracias por su tiempo.

9voto

Zizzencs Puntos 1358

No estoy seguro de por qué buscaba correlaciones y medidas similares. No parece que haya nada que correlacionar.

En su lugar, hay una serie de opciones, ninguna realmente mejor que el otro, pero dependiendo de lo que quieras:

Tomar el rango promedio y luego clasificar los promedios (pero esto trata los datos como intervalo)

Tomar el rango de la mediana y luego ordenar las medianas (pero esto puede dar lugar a empates).

Tome el número de votos que cada artículo obtuvo en primer lugar y clasifíquelos de la siguiente manera

Tome el número de último colocar los votos y clasificarlos (a la inversa, obviamente) en función de ello.

Cree alguna combinación ponderada de rangos, en función de lo que considere razonable.

7voto

Chris Magnuson Puntos 217

Como ya han señalado otros, hay muchas opciones que podrías seguir. El método que recomiendo se basa en rangos medios, es decir, la primera propuesta de Peter.

En este caso, la importancia estadística de la clasificación final puede examinarse mediante una prueba estadística en dos fases. Se trata de un procedimiento no paramétrico que consiste en la prueba de Friedman con la correspondiente prueba post hoc, la prueba Nemenyi . Ambos se basan en rangos medios. El objetivo de la prueba de Friedman es rechazar la hipótesis nula y concluir que existe son algunas diferencias entre los artículos. Si es así, procedemos con la prueba de Nemenyi para averiguar qué ítems difieren realmente. (No empezamos directamente con la prueba post-hoc para evitar la significación encontrada por casualidad).

Encontrará más información, como los valores críticos de ambas pruebas, en el documento de Demsar .

4voto

Gil Hornung Puntos 1

Yo (bueno, Google) he encontrado un artículo que compara métodos para combinar listas clasificadas:

Li, X., Wang, X. y Xiao, G., 2019. Estudio comparativo de métodos de agregación de rangos para listas parciales y de rango superior en aplicaciones genómicas. Breves en bioinformática, 20(1), pp.178-189. https://doi.org/10.1093/bib/bbx101

Utilizan dos paquetes R: TopKLists: https://cran.r-project.org/web/packages/TopKLists/index.html RobustRankAggreg: https://cran.r-project.org/web/packages/RobustRankAggreg/index.html

3voto

Stephen Puntos 11

Utilice Tau-x (donde la "x" se refiere a Tau-b "eXtendido"). Tau-x es el equivalente correlacional de la métrica de distancia de Kemeny-Snell, que ha demostrado ser la única métrica de distancia entre listas de elementos clasificados que satisface todos los requisitos de una métrica de distancia. Véase el capítulo 2 de "Mathematical Models in the Social Sciences" de Kemeny y Snell, también "A New Rank Correlation Coefficient with Application to the Consensus Ranking Problem, Edward Emond, David Mason, Journal of Multi-Criteria Decision Analysis, 11:17-28 (2002).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X