Usted quiere que su evaluación a decirle algo útil sobre el rendimiento de su sistema. El uso de una, llevada a cabo fuera de la prueba de conjunto es agradable, porque nos dice cómo el sistema va a realizar en totalmente nuevos datos. Por otro lado, es difícil a imposible realizar inferencia significativa (es decir, "En general, es mi sistema mejor que este otro?") con sólo un único punto de datos y rara vez se ha casi suficientes datos para crear múltiples de la prueba de particiones. Validación cruzada (y técnicas similares) tratar de estimar la generalización de error al dividir los datos en múltiples conjuntos de pruebas y entrenamiento y la evaluación de cada uno de ellos. Esto es bueno porque usted obtener múltiples estimaciones de su capacidad de generalización, que te permite hacer un poco de comparaciones estadísticas. Sin embargo, estos sólo son válidas si la validación cruzada de los pliegues están bien configurados.
Para un "clásico" de la máquina problema de aprendizaje con un conjunto de observaciones por sujeto (por ejemplo, el Fischer Iris o Pima Indian conjuntos de datos), es difícil estropear la validación cruzada. Dividir los datos en $k$ pliegues, el uso de $k-1$ de ellos para el entrenamiento y la prueba en la última. Espuma, enjuague y repita hasta que cada una de las veces que ha sido utilizado como prueba.
Esta es probablemente la menos recomendable para un conjunto de datos como la suya, donde hay múltiples (64x10x?) observaciones de cada sujeto. Si las observaciones están correlacionados a través del tiempo, el espacio/sensor, y dentro de los temas (como el tuyo seguramente lo son), entonces el modelo puede "aprender" a algunas de estas asociaciones, lo que permitirá impulsar su rendimiento cuando los datos de la misma/cerca de puntos de tiempo, los sensores, y los sujetos aparecen en el conjunto de pruebas, y proporcionar así una más optimistas en cuanto a la estimación de la capacidad del sistema para generalizar.
El enfoque más conservador sería para estratificar su validación cruzada por tema: todos los datos de un determinado tema va en el mismo pliegue (por ejemplo, temas 1-5 están en doblar 1, 6-10 veces en 2, etc) y, a continuación, la validación cruzada continúa como normal. Si usted está dispuesto a afirmar que temporalmente distantes partes de la señal que son independientes, supongo que se podría tratar de estratificación de esa manera también, pero me gustaría encontrar que mucho menos satisfactorio. Lo que yo no se hacer es volcar todos los datos en una lista grande, independientemente de la hora en punto, sensor, o el sujeto, y, a continuación, divida la lista en pliegues. Casi puedo garantizar que va a exagerar su generalización error!