5 votos

¿Estimación de la varianza de un rendimiento de arranque agregador?

Al realizar una validación cruzada o bootstrap re muestreo para estimar el rendimiento de una máquina algoritmo de aprendizaje, que comúnmente se registra la media y la varianza de los errores obtenidos en todos los ensayos. Esto es comúnmente utilizado en el modelo de selección, como elegir el más simple (o más rápida para ejecutar) modelo cuya media es de 1 sigma de la mejor media (o alguna otra regla de oro).

Normalmente he visto declaró que cuando se utiliza bootstrap agregadores (como random forest) la salida de bolsa de error debe ser una estimación insesgada de la generalización de error, y es por ello que no se moleste en hacer la validación cruzada para estimar el error, se obtiene que es gratis. En mi experiencia, esto es generalmente cierto, sin embargo, no veo cómo puedo obtener una estimación de la varianza de la estimación, comparable a la que se obtiene de CV o de remuestreo bootstrap.

Es allí una manera razonable la estimación de esta variación? No podemos simplemente tomar la varianza de la persona de los miembros del conjunto (por ejemplo, los árboles en el caso de random forest) ya que todos tienen una mucho peor error que el conjunto (que era el punto de embolsado!). ¿Hay algún otro método razonable?

Por favor, tenga en cuenta que con fines estadísticos y de aprendizaje de la máquina no es mi campo principal y tienden a tener un poco confusa con la terminología, a veces. Por favor corregir cualquier mal uso o de la confusión de la terminología.

4voto

mat_geek Puntos 1367

No estoy seguro de variación es la cosa correcta a estar buscando. Un procedimiento complejo como el de regresión utilizando una variable método de selección o a la generación de un bosque aleatorio que va a cambiar con pequeños cambios en los datos. Así que lo que es bueno en esas situaciones es bootstrap todo el procedimiento. Esto significa que bootstrap muestras y para cada bootstrap ejemplo ir a través de todo el procedimiento. Esto puede ser muy intensivos por computadora, pero también muy esclarecedor. A menudo puede ver sorprendentes diferencias en los algoritmos de elección de un bootstrap de la muestra para el siguiente. Pero por ejemplo en la selección de variables se pueden ver ciertas variables importantes de ser seleccionado consistentemente más a menudo que los demás. Así que el bootstrap proporciona la variabilidad o sensitvity del procedimiento a pequeños cambios en los datos. Pero importante patrones que no vea lo contrario pueden surgir. Es otra forma de hacer análisis de sensibilidad.

En el caso de embolsado de los procedimientos en los bosques aleatorios puede ser interesante ver qué treeare utilizados en el conjunto de cada momento. También puede calcular la clasificación de las tasas de error cada vez y ver la forma en que varía de un bootstrap de la muestra para el siguiente. Creo que incluso se puede estimar una varianza para el error de clasificación debido a las perturbaciones en los datos.

La idea paso a paso de regresión logística de arranque el procedimiento de selección fue dada primero por Gail Gong en su tesis doctoral de la universidad de Stanford en la década de 1980. Me discutir algunos de estos en mi bootstrap libros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X