Quiero utilizar la validación cruzada n-fold para seleccionar metaparámetros para ajustar un modelo a un conjunto de datos. Sin embargo, eliminar observaciones por completo del conjunto de aprendizaje mientras se ajusta el modelo a cada uno de los pliegues puede crear problemas para el ajuste del modelo.
Me preguntaba si sería válido realizar la validación cruzada sobre una base ponderada, por ejemplo, las observaciones seleccionadas para el pliegue recibirían una ponderación de, digamos, 0,95 y las excluidas del pliegue recibirían una ponderación de, digamos, 0,05. Al evaluar el rendimiento predictivo, se ponderarían los errores de predicción según el complemento de estas ponderaciones, por ejemplo (1-0,95) para los que "participan mucho" y (1-0,05) para los que "participan poco".
¿Tiene fundamento esta intuición?
Este proceso es similar a la Replicación Repetida Equilibrada de Fay (estimación de la varianza del muestreo de encuestas). Nunca lo he visto en relación con la validación cruzada. Agradecería cualquier indicación bibliográfica.