Para la universidad que necesitamos para clasificar a los 3 tipos de cáncer y dar una estimación de lo bien que nuestro modelo va a realizar. Hemos recibido un conjunto de datos con 100 muestras. Hemos dividido los datos en un entrenamiento y de prueba utilizando un muestreo estratificado con una relación de 0.3 y 0.7. El resultado conjunto de entrenamiento se compone de 69 muestras y el examen conjunto de las 31 muestras.
Hemos utilizado 10-fold cross validation para calcular la precisión de nuestros modelos. Al aplicar el mismo modelo en la prueba de conjunto para la mayoría de los modelos de la exactitud en el conjunto de prueba es de entre 10-15% peor que con validación cruzada en el conjunto de entrenamiento, excepto por un modelo donde la precisión en el ajuste de prueba fue de 2% mejor que durante la validación cruzada.
El problema que tenemos ahora es que los dos mejores modelos de puntuación en la validación cruzada no son significativamente diferentes, uno tiene una precisión de 88.57% +/- 12.45%, el otro una precisión de 88.00% +/- 7.92%. Sin embargo, en el conjunto de pruebas de la primera puntuación de 76%, y la segunda de las puntuaciones de 90%.
Si lo hemos entendido correctamente, no podemos elegir el segundo modelo como el mejor modelo basado en la prueba de conjunto de los resultados, porque entonces se estaría utilizando la prueba de conjunto como un conjunto de entrenamiento. En su lugar, nos gustaría que el uso repetido de la validación cruzada para mejorar mi confianza en la validación cruzada de los resultados, y por lo tanto con la esperanza de ser capaz de elegir el mejor modelo.
Con el pequeño conjunto de datos que tenemos, si hacemos repetidas validación cruzada y tomar la media, sería, nos topamos con el problema de que los mismos pliegues sería utilizado varias veces?