¿Es necesario utilizar la validación cruzada para evitar el sobreajuste cuando al aplicar el algoritmo random forest?
Esta es una pregunta que me hicieron en mi reciente entrevista a un científico de datos. ¿Puede alguien dar alguna idea? Gracias
¿Es necesario utilizar la validación cruzada para evitar el sobreajuste cuando al aplicar el algoritmo random forest?
Esta es una pregunta que me hicieron en mi reciente entrevista a un científico de datos. ¿Puede alguien dar alguna idea? Gracias
Pues bien, el bosque aleatorio utiliza el bagging, que está específicamente diseñado para reducir los problemas de sobreajuste.
Los métodos de ensamblaje como el bagging y el CV son formas de evitar el sobreajuste.
La validación cruzada puede utilizarse en la modelización de bosques aleatorios de varias maneras -por ejemplo, para encontrar el número óptimo de árboles-, pero no sé en qué parte tiene a utilizar. Por ejemplo, para medir el rendimiento fuera de la muestra creo que se puede utilizar el error fuera de la bolsa.
Supongo que la pregunta resultante es ' el sobreajuste, aunque reducido, puede seguir siendo un problema si no se utiliza la validación cruzada '? No estoy 100% seguro de la respuesta a eso, pero buscando en los alrededores $^{[1]}$ parece que el sobreajuste podría seguir siendo un problema potencial (tanto el BMA como el bagging son formas de promediación de modelos, el problema podría trasladarse fácilmente al bagging y, por tanto, a los bosques aleatorios). En ese caso, podría ser necesario algún otro enfoque, como la validación cruzada.
(La validación cruzada no es la única forma de reducir/evitar el sobreajuste, por supuesto, que puede haber sido el punto subyacente de la pregunta).
[1] Domingos, P., (2000)
"Promedio bayesiano de clasificadores y el problema del sobreajuste"
Actas de la Decimoséptima Conferencia Internacional sobre Aprendizaje Automático , pp.223-230
Como los bosques aleatorios trabajan con el concepto de agregación de Bootstrap, no hay necesidad especial de validación cruzada. Mientras se trata de un gran número de árboles en el bosque, la validación cruzada tomará mucho de su tiempo.
Y Glen_b también mencionó que, CV y Bagging son dos enfoques para reducir el sobreajuste, por lo que usar uno de ellos estará bien.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.