He implementado una validación cruzada k-fold para evaluar el rendimiento de clasificación de un bosque aleatorio. Lo que quiero saber es: ¿son los valores predichos entre los pliegues directamente comparables?
Por ejemplo, cuando genero predicciones sobre el pliegue de retención 1 y obtengo un valor predicho de 0,84 para una observación, ¿puedo confiar más en esa predicción que en un valor de 0,80 para una observación del pliegue 2?
La pregunta final es si sería apropiado apilar todas las predicciones de mis pliegues k y luego calcular el rendimiento del modelo (como el ROC) a partir de las predicciones apiladas. Esto podría ser útil en el caso de conjuntos de datos muy desequilibrados con un bajo número de positivos, ya que cada pliegue tendrá un número aún menor de positivos y, por tanto, el ROC tendrá una varianza relativamente alta entre los pliegues.
Este Correo electrónico: sobre la RF fue útil, pero no aborda directamente esta cuestión.
Información adicional: Me interesan especialmente los casos con grandes desequilibrios de clase y pequeños conjuntos positivos. Esto no cambia la cuestión, pero pone de manifiesto los posibles problemas de comparación de resultados entre pliegues.