18 votos

¿Los errores fuera de bolsa hacen innecesaria la CV en los bosques aleatorios?

Soy bastante nuevo en los bosques aleatorios. En el pasado, siempre he comparado la precisión de ajuste frente a prueba contra fit vs train para detectar cualquier sobreajuste. Pero acabo de leer aquí eso:

"En los bosques aleatorios, no hay necesidad de validación cruzada o de un conjunto de pruebas separado para obtener una estimación insesgada del error del conjunto de pruebas. Se estima internamente , durante la ejecución..."

El pequeño párrafo anterior se encuentra en la sección La estimación del error fuera de bolsa (oob) Sección. Este concepto de error fuera de bolsa es completamente nuevo para mí y lo que me confunde un poco es cómo el error OOB en mi modelo es del 35% (o 65% de precisión), pero sin embargo, si aplico la validación cruzada a mis datos (sólo un simple método de retención) y comparo ambos ajuste frente a prueba contra fit vs train Obtengo una precisión del 65% y del 96% respectivamente. En mi experiencia, esto se considera sobreajuste, pero el OOB mantiene un error del 35% al igual que mi ajuste frente a prueba error. ¿Estoy sobreajustando? ¿Debería utilizar la validación cruzada para comprobar si hay sobreajuste en los bosques aleatorios?

En resumen, no estoy seguro de si debo confiar en el OOB para obtener un error insesgado del error del conjunto de pruebas cuando mi fit vs train indica que estoy sobreajustando.

22voto

cbeleites Puntos 12461
  • error de formación (como en predict(model, data=train) ) suele ser inútil. A menos que realice una poda (no estándar) de los árboles, no puede ser muy superior a 0 por diseño del algoritmo. . El bosque aleatorio utiliza la agregación bootstrap de árboles de decisión, que se sabe que se sobreajustan mal. Es como el error de entrenamiento de un clasificador de 1 vecino más cercano.

  • Sin embargo, el algoritmo ofrece una forma muy elegante de calcular el estimación del error fuera de bolsa que es esencialmente una estimación fuera de bootstrap del error del modelo agregado). El error fuera de la bolsa es el error estimado para agregar las predicciones del $\approx \frac{1}{e}$ fracción de los árboles que se entrenaron sin ese caso concreto.
    Los modelos agregados para el error fuera de bolsa sólo serán independientes, si no hay dependencia entre las filas de datos de entrada. Es decir, cada fila = un caso independiente, sin estructura jerárquica de datos / sin agrupación / sin mediciones repetidas.

    Por tanto, el error fuera de bolsa no es exactamente el mismo (menos árboles para agregar, más copias de casos de entrenamiento) que un error de validación cruzada, pero a efectos prácticos se aproxima lo suficiente.

  • Lo que tendría sentido mirar para detectar el sobreajuste es comparar el error fuera de bolsa con una validación externa. Sin embargo, a menos que conozca la agrupación de sus datos, un error de validación cruzada "simple" será propenso al mismo sesgo optimista que el error fuera de bolsa: la división se realiza de acuerdo con principios muy similares.
    Para detectarlo, habría que comparar la validación cruzada con el error de un experimento de prueba bien diseñado.

12voto

royalGhost Puntos 686

El error fuera de bolsa es útil y puede sustituir a otros protocolos de estimación del rendimiento (como la validación cruzada), pero debe utilizarse con precaución.

Al igual que la validación cruzada, la estimación del rendimiento mediante muestras fuera de la bolsa se calcula utilizando datos que no se utilizaron para el aprendizaje. Si los datos se han procesado de forma que se transfiera información entre muestras, la estimación estará (probablemente) sesgada. Algunos ejemplos sencillos que se me ocurren son la selección de características o la imputación de valores perdidos. En ambos casos (y especialmente en la selección de características), los datos se transforman utilizando información de todo el conjunto de datos, lo que sesga la estimación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X