5 votos

Puedo repetir la validación cruzada con un pequeño conjunto de datos, y/o ¿cómo puedo mejorar mi cruz de validación de confianza?

Para la universidad que necesitamos para clasificar a los 3 tipos de cáncer y dar una estimación de lo bien que nuestro modelo va a realizar. Hemos recibido un conjunto de datos con 100 muestras. Hemos dividido los datos en un entrenamiento y de prueba utilizando un muestreo estratificado con una relación de 0.3 y 0.7. El resultado conjunto de entrenamiento se compone de 69 muestras y el examen conjunto de las 31 muestras.

Hemos utilizado 10-fold cross validation para calcular la precisión de nuestros modelos. Al aplicar el mismo modelo en la prueba de conjunto para la mayoría de los modelos de la exactitud en el conjunto de prueba es de entre 10-15% peor que con validación cruzada en el conjunto de entrenamiento, excepto por un modelo donde la precisión en el ajuste de prueba fue de 2% mejor que durante la validación cruzada.

El problema que tenemos ahora es que los dos mejores modelos de puntuación en la validación cruzada no son significativamente diferentes, uno tiene una precisión de 88.57% +/- 12.45%, el otro una precisión de 88.00% +/- 7.92%. Sin embargo, en el conjunto de pruebas de la primera puntuación de 76%, y la segunda de las puntuaciones de 90%.

Si lo hemos entendido correctamente, no podemos elegir el segundo modelo como el mejor modelo basado en la prueba de conjunto de los resultados, porque entonces se estaría utilizando la prueba de conjunto como un conjunto de entrenamiento. En su lugar, nos gustaría que el uso repetido de la validación cruzada para mejorar mi confianza en la validación cruzada de los resultados, y por lo tanto con la esperanza de ser capaz de elegir el mejor modelo.

Con el pequeño conjunto de datos que tenemos, si hacemos repetidas validación cruzada y tomar la media, sería, nos topamos con el problema de que los mismos pliegues sería utilizado varias veces?

7voto

dan90266 Puntos 609

Parece como si usted está usando un inadecuado regla de puntuación, porcentaje correctamente clasificado. La optimización de esta medida tendrá que elegir un falso modelo.

Será necesario repetir 10-fold cross-validation 100 veces para obtener la suficiente precisión para la validación de las estimaciones, y asegúrese de utilizar una adecuada regla de puntuación (por ejemplo, Brier score (error cuadrático puntuación) o logarítmica de la regla de puntuación (log likelihood).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X