¿Qué estadística debe notificarse para la validación cruzada repetida?

Question

¿Qué estadística debe notificarse para la validación cruzada repetida?

Preguntado el 8 de Febrero, 2020: Cuando se hizo la pregunta
400 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy haciendo 10 veces repetidas la validación cruzada de 10 veces y ahora quiero informar de los resultados.

Cuáles son las mejores prácticas: ¿Informar de las estadísticas de los 100 pliegues o informar de las estadísticas de las medias de 10 ejecuciones de CV de 10 pliegues?

Preguntado el 8 de Febrero, 2020 por brad

Answer 1

2 Respuestas

Answer 2

6voto

usεr11852 Puntos 5514

La diferencia entre ambos no debe ser grande. Dicho esto, Kim (2008) " Estimación de la tasa de error de clasificación: Validación cruzada repetida, retención repetida y bootstrap " que sí presenta una investigación de CV repetida estipula explícitamente: " obtenemos el $10$ -estimaciones del CV $5$ veces, y tomar la media como estimación final " al presentar los resultados de CV repetidos. A este respecto, uno de los primeros trabajos ampliamente citados en sugerir la CV repetida, Dietterich (1998) " Pruebas estadísticas aproximadas para comparar algoritmos de aprendizaje de clasificación supervisada " la descripción de $5\times2$ -CV se basa en cinco iteraciones de validación cruzada doble y el posterior promedio de las 5 mediciones. Así que para responder a la pregunta final: sería más razonable indicar " medias de 10 corridas CV multiplicadas por 10 " en lugar de los medios de 100 pliegues.

Respondido el 10 de Febrero, 2020 por usεr11852 (5514 Puntos )

Answer 3

1voto

alan ocallaghan Puntos 389

Yo me inclinaría por informar de las estadísticas (incluido el rango) de los 100 pliegues, aunque los resultados de los 10 pliegues no sean independientes. Aunque esto puede no ser del todo válido, es habitual que la gente informe del rango de los resultados de 10 pliegues cuando se hace una repetición de la validación cruzada de 10 pliegues.

La inclusión del intervalo debería contrarrestar en cierta medida el menor IC que probablemente se produzca al tener un mayor número de resultados (no independientes) de los que informar.

Si quisiera ser muy minucioso, podría ajustar un modelo de intercepto aleatorio para cada repetición de los resultados de CV $y_i$ para tener en cuenta la correlación entre los resultados de la CV:

$$ y_i \sim N(\mu_i, \sigma_i) \\ \mu_i \sim N(\mu_0, \tau) $$ donde $\mu_i$ es la media de la repetición CV $i$ y $\mu_0$ es la media global, $\sigma_i$ es la variabilidad de una repetición CV individual, y $\tau$ es la variabilidad de las medias CV entre repeticiones.

Por otra parte, creo que este modelo es excesivo, y el examen de los resultados completos de CV repetidos debería permitirle encontrar el modelo óptimo/más parsimonioso con bastante precisión.

Respondido el 10 de Febrero, 2020 por alan ocallaghan (389 Puntos )

¿Qué estadística debe notificarse para la validación cruzada repetida?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Qué estadística debe notificarse para la validación cruzada repetida?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: