He leído esta afirmación muchas veces pero nunca he encontrado una prueba. Me gustaría intentar hacer una yo mismo, pero no estoy seguro de la notación que debo utilizar. ¿Puede alguien ayudarme con esto?
He echado un vistazo rápido al documento de Mitchell, y de momento no me gusta especialmente (creo que el $n \ll p$ es en cierto modo una coincidencia: incluso los bosques aleatorios no son una bala mágica contra muy pocos casos. En algún momento también su rendimiento se rompe y supongo que esta es la causa subyacente de las observaciones reportadas). Sin embargo, las observaciones de un sesgo pesimista no me sorprenden, véase mi respuesta. En realidad, creo que las ideas que esbozo en mi respuesta pueden ofrecer una explicación conceptualmente bastante simple de lo que está sucediendo allí.
1 votos
OOB es no sin prejuicios. El único componente -a menudo: el más importante- del sesgo que se elimina con OOB es el "optimismo" del que adolece un ajuste dentro de la muestra. Por ejemplo, OOB es pesimista, ya que se basa en el promedio de las predicciones de sólo $\approx 36.8 \%$ de árboles en el bosque. EDIT: como se señala en la respuesta de @cbeleites a continuación.