2 votos

¿Es válido asignar observaciones parcialmente tanto a la prueba como al entrenamiento en la validación cruzada n-fold?

Quiero utilizar la validación cruzada n-fold para seleccionar metaparámetros para ajustar un modelo a un conjunto de datos. Sin embargo, eliminar observaciones por completo del conjunto de aprendizaje mientras se ajusta el modelo a cada uno de los pliegues puede crear problemas para el ajuste del modelo.

Me preguntaba si sería válido realizar la validación cruzada sobre una base ponderada, por ejemplo, las observaciones seleccionadas para el pliegue recibirían una ponderación de, digamos, 0,95 y las excluidas del pliegue recibirían una ponderación de, digamos, 0,05. Al evaluar el rendimiento predictivo, se ponderarían los errores de predicción según el complemento de estas ponderaciones, por ejemplo (1-0,95) para los que "participan mucho" y (1-0,05) para los que "participan poco".

¿Tiene fundamento esta intuición?

Este proceso es similar a la Replicación Repetida Equilibrada de Fay (estimación de la varianza del muestreo de encuestas). Nunca lo he visto en relación con la validación cruzada. Agradecería cualquier indicación bibliográfica.

10voto

Dudo que sea una buena idea. La idea central que subyace a la CV es que se trata de una simulación de un modelo de prueba sobre datos desconocidos; cualquier filtración de información de los conjuntos de pruebas locales a los trenes locales arruinará la garantía de que el rendimiento en la prueba local no es resultado de un sobreajuste, lo que hará que el resultado no sea fiable.

Si su maqueta tiene problemas con el tren reducido, es muy posible que haya detectado alguna inestabilidad general y deba buscar alguna solución mejor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X