Pregunte lo que quiera a un estadístico y su respuesta será "depende".
Depende . Aparte del tipo de modelo (¡buen punto cbeleites!), ¿el número de puntos del conjunto de entrenamiento y el número de predictores? Si el modelo es de clasificación, un gran desequilibrio de clases me llevaría a aumentar el número de repeticiones. Además, si estoy remuestreando un procedimiento de selección de características, me inclinaría por un mayor número de remuestreos.
Para cualquier método de remuestreo utilizado en este contexto, recuerde que (a diferencia del bootstrapping clásico), sólo necesita suficientes iteraciones para obtener una estimación "suficientemente precisa" de la media de la distribución. Esto es subjetivo, pero cualquier respuesta lo será.
Si nos ceñimos por un momento a la clasificación con dos clases, supongamos que espera que la precisión del modelo sea de 0,80 aproximadamente. Dado que el proceso de remuestreo está muestreando la estimación de la precisión (digamos p
), el error típico sería sqrt[p*(1-p)]/sqrt(B)
donde B
es el número de remuestreos. En B = 10
el error estándar de la precisión es de aproximadamente 0,13 y con B = 100
es aproximadamente 0,04. Puedes utilizar esa fórmula como guía aproximada para este caso concreto.
Considere también que, en este ejemplo, la varianza de la precisión se maximiza cuanto más se acerca a 0,50, por lo que un modelo preciso debería necesitar menos réplicas, ya que el error estándar debería ser menor que los modelos que son aprendices débiles.
HTH,
Max