64 votos

Número óptimo de pliegues en $K$-fold cross-validation: es dejar-uno-fuera de CV siempre la mejor opción?

El poder de computación consideraciones a un lado, existen razones para creer que el aumento del número de pliegues en la validación cruzada conduce a una mejor selección del modelo/de la validación (es decir, que a mayor número de pliegues, mejor)?

Tomando el argumento al extremo, no dejar-uno-fuera de validación cruzada conducir necesariamente a los mejores modelos de $K$-fold cross-validation?

Algunos antecedentes sobre esta pregunta: estoy trabajando en un problema con muy pocos casos (por ejemplo, 10 positivos y 10 negativos), y temo que mis modelos no pueden generalizar bien/podría overfit con tan pocos datos.

54voto

John Richardson Puntos 1197

Dejar-uno-fuera de validación cruzada generalmente no conducen a un mejor rendimiento que K veces, y es más probable que sea peor, ya que tiene una relativamente alta varianza (es decir, su valor cambia más para las diferentes muestras de datos que el valor de la k-fold cross-validation). Esto es malo en un modelo de criterio de selección, ya que significa que el modelo criterio de selección puede ser optimizado en maneras que simplemente explotar la variación aleatoria en la muestra particular de datos, en lugar de hacer auténticas mejoras en el rendimiento, es decir, que son más propensos a la sobre-ajuste del modelo criterio de selección. La razón de dejar-uno-fuera de validación cruzada se utiliza en la práctica es que muchos de los modelos puede ser evaluado como muy barato como un subproducto de ajuste del modelo.

Si el costo de cómputo no es principalmente un problema, un mejor enfoque es el de realizar repetidas k-fold cross-validation, donde la k-fold cross-validation procedimiento se repite con diferentes al azar particiones en k subconjuntos disjuntos cada momento. Esto reduce la varianza.

Si usted tiene sólo 20 de los patrones, es muy probable que usted va a experimentar sobre-ajuste del modelo criterio de selección, que es un tanto descuidado escollo en las estadísticas y de aprendizaje de máquina (enchufe descarado: ver a mi papel en el tema). Usted puede ser mejor la elección de un modelo relativamente simple y trate de no a la optimizan de forma muy agresiva, o la adopción de un enfoque Bayesiano y el promedio sobre todas las opciones de modelo, ponderado por su plausibilidad. En mi humilde opinión, la optimización es la raíz de todos los males en las estadísticas, así que es mejor no optimizar si usted no tiene, y para optimizar con precaución cada vez que usted realice.

Tenga en cuenta también si se va a realizar la selección del modelo, usted necesita usar algo como anidada de validación cruzada si usted también necesita un rendimiento estimado (es decir, usted debe considerar la elección de los modelos como una parte integral del modelo de procedimiento de ajuste y de la validación cruzada).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X