7 votos

Información sobre la forma en que el valor de k en la validación cruzada de k afecta a las precisiones resultantes

He estado haciendo algo de aprendizaje automático, y he estado usando la validación cruzada de k-fold para evaluar el rendimiento de la generalización del algoritmo. He probado la validación cruzada de k-fold con k = 5 y k = 200 y obtengo resultados muy diferentes para la clasificación de la Máquina Vectorial de Apoyo.

k    SVM accuracy
-----------------
5    75%
200  94%

Esto parece una gran diferencia en la precisión causada por el cambio en el número de divisiones que estamos haciendo para la validación cruzada del pliegue K. ¿Hay alguna razón para esto? Parece que no puedo encontrar ninguna referencia en los estudios que se han hecho investigando los efectos de usar diferentes valores de k. Obviamente, el valor k que decido usar en mi informe da una impresión completamente diferente de la calidad de mi clasificador.

5voto

patfla Puntos 1

No es una gran "prueba", pero cuando k es pequeña, estás eliminando una parte mucho mayor de tus datos, por lo que el modelo tiene una cantidad mucho menor de datos de los que "aprender". Para k=5 estás eliminando el 20% de los datos cada vez, mientras que para k=200 sólo eliminas el 0,5%. El modelo tiene una mejor oportunidad de recoger toda la "estructura" relevante en la parte de entrenamiento cuando k es grande. Cuando k es pequeño, la probabilidad de que la parte "dejada fuera" contenga una estructura ausente de la parte "dejada dentro" es mayor, un poco como una submuestra "no representativa".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X