1 votos

Método de validación cruzada con múltiples pliegues, proporción entrenamiento/prueba y clase uniforme en los pliegues

Estoy tratando de hacer una validación cruzada con múltiples pliegues con una división del 70%/30% del conjunto de entrenamiento/prueba en los pliegues y una clase uniforme en mis pliegues:

Por ejemplo, yo tengo:
1000 observaciones con unas 800 de clase "0" y 200 de clase "1",
Me gustaría hacer 10 pliegues con cada pliegue con unas 70 observaciones en el conjunto de entrenamiento y 30 observaciones en el conjunto de prueba ,
y dentro de cada pliegue, el conjunto de entrenamiento y el conjunto de prueba deben tener un 50% de clase "0" y un 50% de clase "1", así que alrededor de 35 clases "0" y 35 clases "1" en la prueba de entrenamiento y 15 clases "0" y 15 clases "1" en la prueba de ensayo

Primero, ¿es un enfoque válido y hay algún método para hacerlo en Python?

Edición: aparentemente, si elijo 10 pliegues, será una proporción de 90%/10% para mi conjunto de entrenamiento/prueba?

-1voto

Giuliano Puntos 13

Hay un claro desequilibrio de clases en los datos, así que primero aplique técnicas de equilibrio de clases como SMOTE en los datos de entrenamiento después de la división entrenamiento-prueba. No intente hacer ningún cambio en la prueba para equilibrar las clases. Ahora que sus datos de entrenamiento tienen 50-50 clases, puede aplicar la validación cruzada si lo desea.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X