29 votos

¿Cómo Dejar-Uno-Fuera-la validación cruzada trabajo?

Tengo algunos datos y quiero construir un modelo (por ejemplo, un modelo de regresión lineal) de este tipo de datos. En un siguiente paso, quiero Dejar-Uno-Fuera-de Validación Cruzada (LOOCV) en el modelo para que se vea lo bien que se realiza.

Si he entendido LOOCV a la derecha, voy a construir un nuevo modelo para cada uno de mis muestras (la prueba) utilizando todas las muestras a excepción de esta muestra (en el entrenamiento). Entonces puedo usar el modelo para predecir la prueba y calcular los errores de $(predicted - actual)$.

En un siguiente paso que he agregado todos los errores generados utilizando una función choose, por ejemplo MSE, MAPE. Puedo usar estos valores para juzgar sobre la calidad (o de la bondad de ajuste) de la modelo.

Pregunta: Que modelo es el modelo de la calidad de las fotos de estos valores se aplican, de modo que modelo debo elegir si encuentro los indicadores generados a partir de LOOCV adecuado para mi caso? LOOCV miró a $n$ modelos (donde $n$ es el número de muestras), de los cuales uno es el modelo que debe elegir?

  • Es el modelo que utiliza todas las muestras? Este modelo nunca fue calcuated durante el LOOCV proceso!
  • Es el modelo que tiene el menor error?

He entendido algo mal?

27voto

John Richardson Puntos 1197

Es mejor pensar en la validación cruzada como una forma de estimar la generalización de rendimiento de los modelos generados por un determinado procedimiento, en lugar de la del modelo en sí. Dejar-uno-fuera de validación cruzada es esencialmente una estimación de la generalización de rendimiento de un modelo formado en $n-1$ de muestras de datos, que generalmente es un poco pesimista de la estimación del rendimiento de un modelo formado en $n$ de las muestras.

En lugar de elegir uno de los modelos, lo que hay que hacer es ajustar el modelo a los datos, y el uso de LOO-CV para proporcionar un poco estimación conservadora de la ejecución de dicho modelo.

Nota sin embargo que LOOCV tiene una varianza alta (el valor que se obtiene varía mucho si se utiliza un muestreo aleatorio de los datos), que a menudo hace que sea una mala elección del estimador para la evaluación del desempeño, aunque es de aproximadamente opiniones. Yo lo uso todo el tiempo para la selección del modelo, pero en realidad sólo porque es barato (casi gratis para el núcleo de los modelos en el que estoy trabajando).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X