Soy bastante nuevo en los bosques aleatorios. En el pasado, siempre he comparado la precisión de ajuste frente a prueba contra fit vs train para detectar cualquier sobreajuste. Pero acabo de leer aquí eso:
"En los bosques aleatorios, no hay necesidad de validación cruzada o de un conjunto de pruebas separado para obtener una estimación insesgada del error del conjunto de pruebas. Se estima internamente , durante la ejecución..."
El pequeño párrafo anterior se encuentra en la sección La estimación del error fuera de bolsa (oob) Sección. Este concepto de error fuera de bolsa es completamente nuevo para mí y lo que me confunde un poco es cómo el error OOB en mi modelo es del 35% (o 65% de precisión), pero sin embargo, si aplico la validación cruzada a mis datos (sólo un simple método de retención) y comparo ambos ajuste frente a prueba contra fit vs train Obtengo una precisión del 65% y del 96% respectivamente. En mi experiencia, esto se considera sobreajuste, pero el OOB mantiene un error del 35% al igual que mi ajuste frente a prueba error. ¿Estoy sobreajustando? ¿Debería utilizar la validación cruzada para comprobar si hay sobreajuste en los bosques aleatorios?
En resumen, no estoy seguro de si debo confiar en el OOB para obtener un error insesgado del error del conjunto de pruebas cuando mi fit vs train indica que estoy sobreajustando.