A crítico distinción es si quieres hacerlo:
- [Caso más común]: Construya una estimación del rendimiento en nuevos sujetos (extraídos de la misma población que sus datos).
- Construir una estimación del rendimiento en las nuevas observaciones del mismo sujetos como en su muestra.
El caso más común es el número (1). Por ejemplo, ¿hasta qué punto se pueden predecir los infartos de alguien que llega a urgencias? Y si estás en el caso (1), tú casi con toda seguridad debería hacer (a) una validación cruzada por temas en lugar de (b) una validación cruzada por registros. Hacer una validación por registro en el caso (1) probablemente conducirá a estimaciones falsas e irrazonables del rendimiento en nuevos sujetos.
No entiendo precisamente lo que intentas hacer (y quizás es autodidacta por lo que la pregunta no es del todo realista). No sé en qué caso estás. Si estás en el caso mucho menos común (2), la validación de registros puede estar bien.
Un tema general en estadística es pensar cuidadosamente en lo que es independiente y lo que está correlacionado. En general, una observación independiente tiende a ser una tema diferente. Si quiere predecir el rendimiento en nuevo temas, ¡debes hacer la prueba en temas que no has entrenado!
¿Por qué la validación cruzada por temas en lugar de por registros?
En los escenarios típicos, las observaciones repetidas del mismo individuo están correlacionadas entre sí incluso después de condicionar las características. Por lo tanto, con la validación cruzada de registros, el conjunto de pruebas no es ¡independientemente de su conjunto de entrenamiento! En el caso extremo de una correlación perfecta, tendrías exactamente las mismas observaciones en el conjunto de entrenamiento y en el conjunto de prueba. Estarías entrenando en el conjunto de prueba. El rendimiento medido en la validación cruzada sería no ser predictivo del rendimiento en las nuevas asignaturas.
Por ejemplo, este documento reciente llama a la validación cruzada de registros, ``Voodoo Machine Learning''.
Pero qué hacer con tan pocos sujetos...
Tal vez algunos comentaristas más experimentados que yo con la validación cruzada puedan intervenir, pero para mí, esto parece un posible candidato para $k=n$ (es decir, dejar de lado una validación cruzada)?
Para maximizar los datos para el entrenamiento, algo que podrías hacer es dejar fuera un sujeto para la validación cruzada. En cada iteración, pruebe con un sujeto diferente y entrene con todos los demás.
Si los temas son todos muy diferentes, puede tener efectivamente cerca de $n = 38$ y puede querer poner el mayor número de sujetos independientes en el conjunto de entrenamiento.
1 votos
Si se quiere identificar a los sujetos, ¿cómo se puede eliminar a los sujetos "enteros" para un conjunto de pruebas? El modelo entrenado en 30 sujetos sólo podrá identificar a esos 30 sujetos, no a los 8 sujetos que nunca ha visto. Su aclaración sobre el "sistema biométrico" puede hacer que la mayoría de las respuestas existentes no sean aplicables.
1 votos
Sería útil aclarar: (1) el preciso objetivo, cuál es la variable de resultado que intentas predecir (2) qué datos tienes y posiblemente (3) qué enfoque utilizas.
0 votos
Una vez entrenado el sistema, ¿cómo se desplegaría? ¿El objetivo es utilizarlo con personas que no están en el conjunto de entrenamiento? ¿Los nuevos datos serán de los mismos 38 sujetos? Intento entender cómo se supone que se va a utilizar el sistema y si estás en el caso (1) o en el caso (2) de la respuesta de @AmiTavory.
0 votos
@amoeba No tengo mucha experiencia :( Hice la pregunta porque se recomienda dividir los datos (entrenamiento, validación y prueba). Así que es o bien eliminar algunos sujetos o algunas observaciones de cada uno o utilizar un conjunto de datos disponibles en línea. Así que 1) Quiero ser capaz de identificar los sujetos. A los que pertenecen las características. 2) Estoy utilizando EEG (por lo tanto, series de tiempo). 3) Utilizo un método estratificado. Pero es porque obtuve una mayor precisión con él que con kfold. Sólo conocía k-fold, stratified y leave-one-out. Como siempre he pensado que era para compensar el desequilibrio en los datos. Pero estoy abierto a sugerencias.
0 votos
@MatthewGunn Creo que no sería posible utilizarlo con personas que no están en el conjunto de datos. Eso sería muy difícil pero muy interesante si se consigue. Así que yo diría que el caso 1.