Supongamos que uno realiza la llamada no paramétrica bootstrap, dibujando $B$ muestras de tamaño $n$ cada uno de la original $n$ observaciones con el reemplazo. Creo que este procedimiento es equivalente a la estimación de la función de distribución acumulativa por el cdf empírica:
http://en.wikipedia.org/wiki/Empirical_distribution_function
y a continuación, obtener el bootstrap de las muestras mediante la simulación de $n$ observaciones a partir de la estimación de la cdf $B$ veces en una fila.
Si me equivoco en esto, entonces uno tiene que solucionar el problema de sobreajuste, porque el cdf empírica tiene acerca de N parámetros. Por supuesto, converge asintóticamente a la población cdf, pero lo que sobre muestras finitas? E. g. si yo les dijera a ustedes que tengo 100 observaciones y voy a la estimación de la cdf como $N(\mu, \sigma^2)$ con dos parámetros, no se alarme. Sin embargo, si el número de parámetros que se tuvieron que ir hasta el 100, no parece razonable.
Del mismo modo, cuando se emplea un estándar de la regresión lineal múltiple, la distribución del término de error se calcula como:$N(0, \sigma^2)$. Si uno se decide a cambiar a arranque de los residuos, tiene que darse cuenta de que ahora hay alrededor de $n$ parámetros utilizados solamente para manejar el término de error de la distribución.
Podría usted por favor me dirija a algunas fuentes que abordan esta cuestión de forma explícita, o dime por qué no es un problema si creo que lo tengo mal.