Número óptimo de pliegues en $K$-fold cross-validation: es dejar-uno-fuera de CV siempre la mejor opción?

Question

Número óptimo de pliegues en $K$-fold cross-validation: es dejar-uno-fuera de CV siempre la mejor opción?

Preguntado el 12 de Junio, 2013: Cuando se hizo la pregunta
930 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

El poder de computación consideraciones a un lado, existen razones para creer que el aumento del número de pliegues en la validación cruzada conduce a una mejor selección del modelo/de la validación (es decir, que a mayor número de pliegues, mejor)?

Tomando el argumento al extremo, no dejar-uno-fuera de validación cruzada conducir necesariamente a los mejores modelos de $K$-fold cross-validation?

Algunos antecedentes sobre esta pregunta: estoy trabajando en un problema con muy pocos casos (por ejemplo, 10 positivos y 10 negativos), y temo que mis modelos no pueden generalizar bien/podría overfit con tan pocos datos.

Preguntado el 12 de Junio, 2013 por Stéphane

Answer 1

1 Respuestas

Answer 2

54voto

John Richardson Puntos 1197

Dejar-uno-fuera de validación cruzada generalmente no conducen a un mejor rendimiento que K veces, y es más probable que sea peor, ya que tiene una relativamente alta varianza (es decir, su valor cambia más para las diferentes muestras de datos que el valor de la k-fold cross-validation). Esto es malo en un modelo de criterio de selección, ya que significa que el modelo criterio de selección puede ser optimizado en maneras que simplemente explotar la variación aleatoria en la muestra particular de datos, en lugar de hacer auténticas mejoras en el rendimiento, es decir, que son más propensos a la sobre-ajuste del modelo criterio de selección. La razón de dejar-uno-fuera de validación cruzada se utiliza en la práctica es que muchos de los modelos puede ser evaluado como muy barato como un subproducto de ajuste del modelo.

Si el costo de cómputo no es principalmente un problema, un mejor enfoque es el de realizar repetidas k-fold cross-validation, donde la k-fold cross-validation procedimiento se repite con diferentes al azar particiones en k subconjuntos disjuntos cada momento. Esto reduce la varianza.

Si usted tiene sólo 20 de los patrones, es muy probable que usted va a experimentar sobre-ajuste del modelo criterio de selección, que es un tanto descuidado escollo en las estadísticas y de aprendizaje de máquina (enchufe descarado: ver a mi papel en el tema). Usted puede ser mejor la elección de un modelo relativamente simple y trate de no a la optimizan de forma muy agresiva, o la adopción de un enfoque Bayesiano y el promedio sobre todas las opciones de modelo, ponderado por su plausibilidad. En mi humilde opinión, la optimización es la raíz de todos los males en las estadísticas, así que es mejor no optimizar si usted no tiene, y para optimizar con precaución cada vez que usted realice.

Tenga en cuenta también si se va a realizar la selección del modelo, usted necesita usar algo como anidada de validación cruzada si usted también necesita un rendimiento estimado (es decir, usted debe considerar la elección de los modelos como una parte integral del modelo de procedimiento de ajuste y de la validación cruzada).

Respondido el 12 de Junio, 2013 por John Richardson (1197 Puntos )

Número óptimo de pliegues en $K$-fold cross-validation: es dejar-uno-fuera de CV siempre la mejor opción?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Número óptimo de pliegues en $K$-fold cross-validation: es dejar-uno-fuera de CV siempre la mejor opción?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: