4 votos

¿Cómo puedo encontrar similitudes entre dos conjuntos de datos

Tengo un grupo de datos con 12 diferentes jugadores de fútbol, y son clasificados de 11 diferentes habilidades (velocidad, habilidad, talento, etc).

Estoy buscando parejas de individuos sobre la base de similares futbolistas, y estaba pensando en tomar sólo el promedio para cada jugador, y la coincidencia de ellos.

¿Alguien tiene alguna sugerencia mejor, es decir, un estadístico de prueba para ver qué jugadores son los que mejor se ajusta. Y de esto se puede tener un sistema justo de los equipos de...

Espero que esto tenga sentido,

+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
|             |player|player|player|player|player|player|player|player|player|player|player|player|
|             |     1|     2|     3|     4|     5|     6|     7|     8|     9|    10|    11|    12|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Speed       |  12.1|  15.9|  10.9|  12.4|   7.6|  13.6|   9.3|   6.9|  13.4|   8.6|   4.7|  13.1|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Skill       |   8.1|  14.1|  13.6|   7.7|   6.0|  10.4|   8.1|   7.0|  13.1|   9.7|  17.4|  14.7|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Flair       |   6.6|  13.3|  11.3|   7.4|   5.9|  10.0|   8.1|   8.4|  13.6|   8.1|  16.6|  15.0|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Finishing   |   9.4|  13.3|  11.3|   7.4|   7.4| 12.00|  10.6|  11.9|  13.4|  17.4|  13.6|  12.3|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Long  Shots |  10.1|  13.1|  11.6|   7.4|   6.6|   8.7|  10.7|  13.6|  13.4|  15.6|  12.4|   9.6|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Crossing    |  10.0|  12.7|  15.7|   9.6|   6.6|  10.3|  11.3|   9.9|  11.7|   8.9|  13.6|  11.1|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Dribbling   |  12.0|  15.0|  13.3|   9.3|   7.1|  11.0|  10.6|   8.4|  12.7|  10.3|  16.1|  13.9|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Tackling    |  18.4|  14.7|   8.3|  15.1|   9.3|   5.0|  14.6|  11.9|  13.0|   7.4|   9.6|   5.9|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Heading     |  14.7|  15.9|   8.4|  11.6|   7.7|   5.0|  13.1|   9.6|  13.1|  13.1|   8.0|   6.3|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
|Determination|  19.0|  14.9|   9.1|  15.6|  11.7|   7.9|  14.4|  10.9|  12.9|  12.1|  11.4|   5.1|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Passing     |  12.9|  15.1|  15.9|   9.6|   9.3|  11.3|  12.1|  10.9|  16.3|  11.1|  17.6|  13.3|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Total       | 121.3| 142.1| 118.4| 100.7|  77.6|  91.6| 113.7| 102.3| 133.3| 113.9| 136.3| 107.1|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Maximum     |   220|   220|   220|   220|   220|   220|   220|   220|   220|   220|   220|   220|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+
| Index rating| 55.13| 64.61| 53.83| 45.78| 35.26| 41.62| 51.69| 46.49| 60.58| 51.75| 61.95| 48.70|
+-------------+------+------+------+------+------+------+------+------+------+------+------+------+

9voto

jldugger Puntos 7490

Nominal de la solución

Para los emparejamientos, usted tiene que decidir cuánto peso de las diferentes características. Habiendo hecho eso, una agrupación jerárquica puede ser informativo: usted puede leer buenos emparejamientos de la derecha del dendrograma. El uso de esta flexibilidad, enfoque visual puede ser más útil en el campo-y, para adaptarse a las situaciones dinámicas, tales como las ausencias de algunos jugadores, que más formal de los métodos.

Por ejemplo, sin pesas (es decir, la igualdad de pesos), podemos hacer el cálculo de partida con los datos en transpuesto formato:

Player,Speed,Skill,Flair,Finishing,Long,Crossing,Dribbling,Tackling,Heading,Determination,Passing
1,12.1,8.1,6.6,9.4,10.1,10,12,18.4,14.7,19,12.9
2,15.9,14.1,13.3,13.3,13.1,12.7,15,14.7,15.9,14.9,15.1
...
12,13.1,14.7,15,12.3,9.6,11.1,13.9,5.9,6.3,5.1,13.3

Aquí es R código para llevar a cabo la agrupación:

data <- read.table("f:/temp/football.csv", header=TRUE, sep=",")
fit <- hclust(dist(data[,-1])) # Excludes player number from the calculation!
plot(fit)

Dendrogram

Comenzando en la parte inferior, vemos que los jugadores 2 y 9, 4 y 7, 6 y 12, y 8 y 10 deben estar vinculados. Luego, 3 y 11 podrían ir juntos, dejando 5 y 1 como socios.

Además de los pesos, el método de agrupación pueden afectar los resultados. Si no hay demasiados jugadores a la par, con un poco de experimentación podría dar alguna orientación adicional: buscar parejas que tienden a permanecer juntos no importa qué técnica es la más utilizada.

Solución enfocada

La cuestión, sin embargo, no parece que se trate de parejas de individuos: aparece la preocupación de la formación de equipos de casi de la misma intensidad. Podemos formular esta versión de la pregunta suponiendo que la fuerza de un equipo es la suma de los puntos fuertes de sus individuos. Entonces, tomando nota de que el número de jugadores es pequeña (12), podemos hacer una búsqueda de fuerza bruta sobre todos los posibles de seis personas de los equipos de encontrar el par que están más igualados.

Teniendo en cuenta la importancia de la ponderación de los atributos, una manera sencilla de comparar los dos equipos, en términos de algunos de vector de distancia entre sus puntos fuertes. Con la suma de diferencias absolutas ($L^1$ métrica) da la siguiente solución:

library(gtools)
s <- apply(data[,-1], 2, sum)
f <- function(i) {
  x <- apply(data[i,-1], 2, sum)
  sum(abs(s - 2*x))
}
n <- length(data[[1]])
teams <- combinations(n, floor(n/2))
dist <- apply(teams, 1, f)
i.min <- which.min(dist)
teams[i.min, ]
f(teams[i.min,])

Esta búsqueda de informes de un equipo compuesto por jugadores 1, 3, 5, 9, 10, y 12 ("equipo.1"); el resto de los jugadores del otro equipo ("team.2"). El promedio de sus habilidades

       Speed Skill Flair Finishing Long Crossing Dribbling Tackling Heading Determination Passing
team.1  11.0  10.9  10.1      11.9 11.2     10.7      11.5     10.4    10.5          11.6    13.1
team.2  10.5  10.8  10.6      11.5 11.0     11.2      11.7     11.8    10.5          12.5    12.8

0voto

mat_geek Puntos 1367

Una posibilidad es que cada jugador para calcular su promedio del cuadrado de la desviación de la puntuación con la de otros jugadores a través de las 11 categorías. A continuación, coincide con el jugador con el que tiene el promedio más pequeño cuadrado de la desviación. Puede emparejar hasta los jugadores de esta manera para que coincida con ellos en el nivel de habilidad. Podría ser necesario un método elegido para romper los lazos.

-1voto

py4on Puntos 101

Esto podría no ser la mejor manera de hacerlo, pero usted puede simplemente tomar el valor absoluto de los números con el fin de compararlos.

Así, se toma el valor absoluto de la habilidad de Un jugador, Una y restar el valor absoluto de la habilidad para el jugador B de eso, y así sucesivamente.

Cuanto menor sea el número en la final, el más similar a la de los jugadores será.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X