He estado utilizando la validación cruzada k-fold repetida y he estado informando de la media (de la métrica de evaluación, por ejemplo, sensibilidad, especificidad) calculada como la media general a través de los pliegues de diferentes ejecuciones de la validación cruzada.
Sin embargo, no estoy seguro de cómo debo informar de la desviación. He encontrado aquí muchas preguntas que tratan sobre la validación cruzada repetida, sin embargo, ninguna que yo conozca responde explícitamente a la cuestión de la varianza en las pruebas de validación cruzada repetida.
Entiendo que la desviación total se debe a: 1) inestabilidad del modelo y 2) tamaño limitado de la muestra.
Parece que hay 4 enfoques diferentes para calcular la varianza para la validación cruzada k-fold repetida:
1) ¿la varianza de la métrica de rendimiento media estimada (por ejemplo, la precisión) en todas las ejecuciones de la validación cruzada es una estimación válida de la varianza?
2) la varianza agrupada mediante la agrupación de varianzas específicas de ejecución (que se calculan a través de diferentes pliegues de una ejecución de prueba de validación cruzada).
3) concatenar los resultados de clasificación de diferentes pliegues de una validación cruzada ejecutada en un gran vector. Por ejemplo, si el número de datos de prueba en cada pliegue es 10 y tengo una CV de 10 pliegues, el vector resultante para una repetición será de tamaño 100. Ahora bien, si repito mi prueba de validación cruzada 10 veces, tendré 10 vectores de tamaño 100, cada uno de los cuales contendrá los resultados de clasificación de una ejecución de CV de 10 pliegues. Ahora, calcularía la media y la varianza como en el caso de una única ejecución de CV.
4) También he leído en (ecuaciones 2 y 3 en 1 ) que la varianza es la suma de la varianza externa y la varianza interna esperada. Si he entendido bien, la varianza externa es la varianza de los rendimientos medios específicos de cada repetición, y la varianza interna es la varianza entre los distintos pliegues de una serie de validación cruzada.
Agradecería enormemente su ayuda y orientación sobre qué varianza sería la adecuada para informar de la prueba de validación cruzada repetida.
Gracias,