Estoy tratando de hacer una validación cruzada con múltiples pliegues con una división del 70%/30% del conjunto de entrenamiento/prueba en los pliegues y una clase uniforme en mis pliegues:
Por ejemplo, yo tengo:
1000 observaciones con unas 800 de clase "0" y 200 de clase "1",
Me gustaría hacer 10 pliegues con cada pliegue con unas 70 observaciones en el conjunto de entrenamiento y 30 observaciones en el conjunto de prueba ,
y dentro de cada pliegue, el conjunto de entrenamiento y el conjunto de prueba deben tener un 50% de clase "0" y un 50% de clase "1", así que alrededor de 35 clases "0" y 35 clases "1" en la prueba de entrenamiento y 15 clases "0" y 15 clases "1" en la prueba de ensayo
Primero, ¿es un enfoque válido y hay algún método para hacerlo en Python?
Edición: aparentemente, si elijo 10 pliegues, será una proporción de 90%/10% para mi conjunto de entrenamiento/prueba?