Supongamos que tengo datos de series temporales.
'person':['A','A','A','B','B','B','C,'C','C']
'weight':[120, 123, 135, 140, 150, 151, 120, 120, 121]
'height':[5, 5, 5, 6, 6, 6, 4.5, 4.5, 4.5]
'running_time':[60,61,63,34,50,55, 60, 70, 80]
'week':[1, 2, 3, 1, 2, 3, 1, 2, 3}
Supongamos que el conjunto de datos es mucho mayor, claro. Supongamos que quiero generar un modelo que utilice persona, peso, altura y semana para predecir el tiempo de carrera (esto es sólo un ejemplo, olvidémonos de otras formas mejores de hacerlo).
Para una división de prueba de entrenamiento o validación cruzada, podría dividir los datos de forma completamente aleatoria, donde algunas de las mediciones de la persona A estarán en el entrenamiento y otras en la prueba. O podría dividir aleatoriamente en función de las personas. En otras palabras, el 70% de las personas van al entrenamiento y el 30% a la prueba.
¿Cuál sería la mejor manera de hacerlo?