Soy un estudiante de ciencias de datos y me he encontrado con un conjunto de datos bastante inusual (para mí, lo que explica el título vago).
Es de la siguiente forma:
STAT_1
STAT_2
...
INICIO
FUERA
NEXT_HOME
PRÓXIMO_AVANCE
NEXT_RESULT
15
11
...
Equipo A
Equipo B
Equipo C
Equipo D
1
11
18
...
Equipo C
Equipo D
Equipo E
Equipo F
0
...
...
...
...
...
...
...
...
10
11
...
Equipo W
Equipo X
Equipo Y
Equipo Z
1
Básicamente, las filas representan las estadísticas del partido "actual" y al final de la fila las columnas NEXT_HOME y NEXT_AWAY representan los equipos que juegan el próximo partido (fila siguiente) y el resultado de ese próximo partido se almacena en NEXT_WINNER.
Los datos de prueba tienen la misma forma pero sin la columna NEXT_WINNER porque esa es la variable objetivo.
Esto me resulta inusual porque, esencialmente, tengo que predecir el resultado del próximo partido basándome en todos los partidos anteriores utilizando un modelo de aprendizaje automático de mi elección.
Nunca he hecho nada parecido, así que agradecería alguna orientación (no soluciones, sólo consejos y por dónde empezar). Algo del tipo de cómo transformar el conjunto de datos para hacerlo más manejable. Supongo que debería almacenar de alguna manera las estadísticas de cada equipo y hacer algo con él, pero no estoy seguro.
Gracias.