Al realizar una validación cruzada o bootstrap re muestreo para estimar el rendimiento de una máquina algoritmo de aprendizaje, que comúnmente se registra la media y la varianza de los errores obtenidos en todos los ensayos. Esto es comúnmente utilizado en el modelo de selección, como elegir el más simple (o más rápida para ejecutar) modelo cuya media es de 1 sigma de la mejor media (o alguna otra regla de oro).
Normalmente he visto declaró que cuando se utiliza bootstrap agregadores (como random forest) la salida de bolsa de error debe ser una estimación insesgada de la generalización de error, y es por ello que no se moleste en hacer la validación cruzada para estimar el error, se obtiene que es gratis. En mi experiencia, esto es generalmente cierto, sin embargo, no veo cómo puedo obtener una estimación de la varianza de la estimación, comparable a la que se obtiene de CV o de remuestreo bootstrap.
Es allí una manera razonable la estimación de esta variación? No podemos simplemente tomar la varianza de la persona de los miembros del conjunto (por ejemplo, los árboles en el caso de random forest) ya que todos tienen una mucho peor error que el conjunto (que era el punto de embolsado!). ¿Hay algún otro método razonable?
Por favor, tenga en cuenta que con fines estadísticos y de aprendizaje de la máquina no es mi campo principal y tienden a tener un poco confusa con la terminología, a veces. Por favor corregir cualquier mal uso o de la confusión de la terminología.