5 votos

¿Cuál es la mejor manera de elegir a los datos para la validación cruzada en la regresión lineal de configuración (PCA, PLS).

Estamos en extraer las características de EEG, que es dependiente del tiempo de la señal.

Tenemos señales de 10.000 puntos de datos de más de 64 canales, y extraemos 10 características de cada marca de tiempo por canal, por lo que al final tenemos una función de conjunto de datos de 64x10 características para cada paso de tiempo.

Estamos aplicando a la regresión PLS en contra de los movimientos de la mano (X,Y,Z).

Estamos utilizando validación cruzada para comprobar los resultados, pero algunos de nuestros colegas están señalando que el uso intercalado de muestreo de los conjuntos de datos se siente como hacer trampa.

Su sugerencia es usar 2/3rds de datos contiguos para la formación y el 1/3 de la prueba.

Me gustaría escuchar la opinión general sobre esta configuración, mi intuición me dice que ya es tiempo dependiente de los datos, simplemente dividiendo el conjunto de datos, como que el rendimiento de malos resultados (que lo hace)

3voto

Rob Allen Puntos 486

Usted quiere que su evaluación a decirle algo útil sobre el rendimiento de su sistema. El uso de una, llevada a cabo fuera de la prueba de conjunto es agradable, porque nos dice cómo el sistema va a realizar en totalmente nuevos datos. Por otro lado, es difícil a imposible realizar inferencia significativa (es decir, "En general, es mi sistema mejor que este otro?") con sólo un único punto de datos y rara vez se ha casi suficientes datos para crear múltiples de la prueba de particiones. Validación cruzada (y técnicas similares) tratar de estimar la generalización de error al dividir los datos en múltiples conjuntos de pruebas y entrenamiento y la evaluación de cada uno de ellos. Esto es bueno porque usted obtener múltiples estimaciones de su capacidad de generalización, que te permite hacer un poco de comparaciones estadísticas. Sin embargo, estos sólo son válidas si la validación cruzada de los pliegues están bien configurados.

Para un "clásico" de la máquina problema de aprendizaje con un conjunto de observaciones por sujeto (por ejemplo, el Fischer Iris o Pima Indian conjuntos de datos), es difícil estropear la validación cruzada. Dividir los datos en $k$ pliegues, el uso de $k-1$ de ellos para el entrenamiento y la prueba en la última. Espuma, enjuague y repita hasta que cada una de las veces que ha sido utilizado como prueba.

Esta es probablemente la menos recomendable para un conjunto de datos como la suya, donde hay múltiples (64x10x?) observaciones de cada sujeto. Si las observaciones están correlacionados a través del tiempo, el espacio/sensor, y dentro de los temas (como el tuyo seguramente lo son), entonces el modelo puede "aprender" a algunas de estas asociaciones, lo que permitirá impulsar su rendimiento cuando los datos de la misma/cerca de puntos de tiempo, los sensores, y los sujetos aparecen en el conjunto de pruebas, y proporcionar así una más optimistas en cuanto a la estimación de la capacidad del sistema para generalizar.

El enfoque más conservador sería para estratificar su validación cruzada por tema: todos los datos de un determinado tema va en el mismo pliegue (por ejemplo, temas 1-5 están en doblar 1, 6-10 veces en 2, etc) y, a continuación, la validación cruzada continúa como normal. Si usted está dispuesto a afirmar que temporalmente distantes partes de la señal que son independientes, supongo que se podría tratar de estratificación de esa manera también, pero me gustaría encontrar que mucho menos satisfactorio. Lo que yo no se hacer es volcar todos los datos en una lista grande, independientemente de la hora en punto, sensor, o el sujeto, y, a continuación, divida la lista en pliegues. Casi puedo garantizar que va a exagerar su generalización error!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X