6 votos

Comparación de las predicciones de CV entre pliegues para Random Forest

He implementado una validación cruzada k-fold para evaluar el rendimiento de clasificación de un bosque aleatorio. Lo que quiero saber es: ¿son los valores predichos entre los pliegues directamente comparables?

Por ejemplo, cuando genero predicciones sobre el pliegue de retención 1 y obtengo un valor predicho de 0,84 para una observación, ¿puedo confiar más en esa predicción que en un valor de 0,80 para una observación del pliegue 2?

La pregunta final es si sería apropiado apilar todas las predicciones de mis pliegues k y luego calcular el rendimiento del modelo (como el ROC) a partir de las predicciones apiladas. Esto podría ser útil en el caso de conjuntos de datos muy desequilibrados con un bajo número de positivos, ya que cada pliegue tendrá un número aún menor de positivos y, por tanto, el ROC tendrá una varianza relativamente alta entre los pliegues.

Este Correo electrónico: sobre la RF fue útil, pero no aborda directamente esta cuestión.

Información adicional: Me interesan especialmente los casos con grandes desequilibrios de clase y pequeños conjuntos positivos. Esto no cambia la cuestión, pero pone de manifiesto los posibles problemas de comparación de resultados entre pliegues.

1voto

166_MMX Puntos 481

Para cada pliegue, está construyendo un clasificador que hace predicciones para las observaciones. Los clasificadores dentro de cada pliegue tienen conjuntos de entrenamiento ligeramente diferentes y ponderaciones distintas, pero todos intentan estimar el mismo modelo subyacente. Así que sí, puede combinar las predicciones. Si tiene varias predicciones para una observación, podría tomar la predicción media de varios pliegues, o ponderar las predicciones de manera que los modelos más precisos tengan más influencia que los menos precisos. Esto se aplica a cualquier sistema de "aprendizaje conjunto". Las predicciones para las diferentes observaciones deberían hacerse en la misma escala (por ejemplo, de -1 a +1 o de 0 a +1), así que no se me ocurre ninguna razón para no combinarlas.

1voto

Brian J Puntos 11

Después de hablar con otras personas sobre este problema, creo que técnicamente no se pueden comparar directamente las probabilidades previstas para diferentes pliegues, pero prácticamente En la mayoría de los casos, sí.

El momento en el que no podrías hacerlo es si tienes un conjunto positivo pequeño y potencialmente diverso. Entonces, cuando se dividen los positivos en k pliegues, cada uno de los pliegues de positivos puede no ser tan similar al otro, por lo que los k-1 pliegues van a variar un poco; esto haría que los árboles que componen cada uno de los bosques fueran más diferentes - esto parecería indicar que no se podrían comparar directamente las probabilidades predichas entre pliegues.

Ahora bien, en la práctica, si se tiene un conjunto de positivos de tamaño decente, entonces cuando se dividen esos positivos entre los pliegues, cada conjunto k-1 de pliegues que compone los pliegues será bastante similar, por lo que los bosques acabarán no siendo tan diferentes (suponiendo que se tengan suficientes árboles). Así que, en la práctica, las probabilidades predichas acabarán siendo casi directamente comparables.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X