9 votos

¿Cómo se puede demostrar formalmente que el error OOB en el bosque aleatorio es insesgado?

He leído esta afirmación muchas veces pero nunca he encontrado una prueba. Me gustaría intentar hacer una yo mismo, pero no estoy seguro de la notación que debo utilizar. ¿Puede alguien ayudarme con esto?

1 votos

OOB es no sin prejuicios. El único componente -a menudo: el más importante- del sesgo que se elimina con OOB es el "optimismo" del que adolece un ajuste dentro de la muestra. Por ejemplo, OOB es pesimista, ya que se basa en el promedio de las predicciones de sólo $\approx 36.8 \%$ de árboles en el bosque. EDIT: como se señala en la respuesta de @cbeleites a continuación.

4voto

David Plumpton Puntos 1345

No sé si esta es la respuesta definitiva, pero esas cosas no caben en un comentario.

La afirmación de que los errores OOB son imparciales se utiliza a menudo, pero nunca he visto una demostración. Después de muchas búsquedas, finalmente me di cuenta después de leer cuidadosamente la conocida página de Breiman para RF Sección: La estimación del error fuera de bolsa (Oob) . En caso de que no te hayas dado cuenta (ya que se me pasó por alto durante algún tiempo), la última proposición es la importante: Esto ha demostrado ser imparcial en muchas pruebas . Por lo tanto, no hay señales de derivación formal.

Además, parece probado que para el caso en que se tengan más variables que instancias este estimador está sesgado. Véase aquí .

Para el error en la bolsa hay una derivación formal. El error dentro de la bolsa es el error bootstrap y hay mucha literatura empezando por "An Introduction to the Bootsrap, by Efron and Tibshirani". Sin embargo, la demostración más limpia que he visto es aquí .

Si quieres empezar a encontrar una prueba, creo que un buen punto de partida es la comparación de esta estimación con la validación cruzada N-fold. En ESTL se afirma que hay una identidad en el límite, ya que el número de muestras va al infinito.

1 votos

He echado un vistazo rápido al documento de Mitchell, y de momento no me gusta especialmente (creo que el $n \ll p$ es en cierto modo una coincidencia: incluso los bosques aleatorios no son una bala mágica contra muy pocos casos. En algún momento también su rendimiento se rompe y supongo que esta es la causa subyacente de las observaciones reportadas). Sin embargo, las observaciones de un sesgo pesimista no me sorprenden, véase mi respuesta. En realidad, creo que las ideas que esbozo en mi respuesta pueden ofrecer una explicación conceptualmente bastante simple de lo que está sucediendo allí.

3voto

cbeleites Puntos 12461

¿Por qué esperas que el error oob sea imparcial?

  • Hay (al menos) 1 caso de entrenamiento menos disponible para los árboles utilizados en el bosque sustituto en comparación con el bosque "original". Yo esperaría que esto condujera a un pequeño sesgo pesimista aproximadamente comparable al de la validación cruzada con exclusión.

  • Hay aproximadamente $\frac{1}{e} \approx \frac{1}{3}$ del número de árboles del bosque "original" en el bosque sustituto que realmente se evalúa con el caso de la izquierda. Por lo tanto, esperaría una mayor varianza en la predicción, lo que causará un sesgo más pesimista.

Ambas reflexiones están estrechamente relacionadas con la curva de aprendizaje del clasificador y la aplicación/datos en cuestión: la primera con el rendimiento medio en función del tamaño de la muestra de entrenamiento y la segunda con la varianza alrededor de esta curva media.

En definitiva, espero que como mucho puedas demostrar formalmente que oob es un estimador insesgado del rendimiento de los bosques aleatorios que contiene $\frac{1}{e} \approx \frac{1}{3}$ del número de árboles del bosque "original", y siendo entrenado en $n - 1$ casos de los datos de entrenamiento originales.

Tenga en cuenta también que Breiman utiliza "insesgado" para la validación cruzada, donde también tenemos un (pequeño) sesgo pesimista. Viniendo de un campo experimental, me parece bien decir que ambos son prácticamente insesgados, ya que el sesgo suele ser un problema mucho menor que la varianza (probablemente no estés usando bosques aleatorios si tienes el lujo de tener muchos casos).

3 votos

No esperaba que lo fuera. La gente lo menciona en muchos sitios, así que lo acepté sin más. Ahora que he estado pensando en ello es por lo que quería probarlo. Me gusta tu respuesta, déjame jugar un poco con tu información para ver qué puedo concluir.

0 votos

@JEquihua: Desde luego me interesaría el resultado.

1 votos

El bosque oob es aproximadamente 1/3 del original, no 2/3 (¡así que más razones para que el error oob sea pesimista!). La probabilidad de elegir un árbol T para el bosque de oob de una observación dada (x,y) es la probabilidad de que (x,y) no esté en T, es decir ((N-1)/N)^N = (1 + (-1)/N)^N -> exp(-1) =~ 1/3. Por tanto, el tamaño esperado del bosque oob para (x, y) es aproximadamente B/3, si B es el tamaño del bosque original.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X