Por favor me corrigen cuando me equivoco:
Mi comprensión de arranque es que es una manera de estimar la distribución de algunos de estadística (media, error estándar, correlación de Pearson, coef, etc), que se da sólo una muestra. Así que si me quiere estimar la media de una población que hace uso de métodos bootstrap, me generan muchos bootstrap muestras, calcular la media de cada una de estas muestras bootstrap y, a continuación, utilizar la distribución de los valores a deducir donde el desconocido de la población significa que es probable que caiga y calcular un intervalo de confianza para la estadística.
Pero, ¿cómo son las muestras bootstrap generado? Hay un scikit bootstrap módulo y veo que tiene un método de arranque para calcular el intervalo de confianza para una determinada estadística: ver la primera función, def(ci).
El primer estimador de la distribución empírica de la función, que debe ser una serie que la estadística de interés puede ser calculada. ¿Cómo es esto empírica de los datos utilizados para generar la secuencia de arranque de las muestras?
Para ampliar esta pregunta, si quiero calcular un intervalo de confianza 95% para el coeficiente de correlación de Pearson entre dos variables aleatorias x e y, y paso a data = [(x1,y1), (x2,y2), ... (xi,yi), ... (xn,yn)]
a la aplicación de bootstrap CI, eso no significa que (x1, ..., xn)
y (y1, ..., yn)
se generan de forma independiente el uno del otro para cada uno de bootstrap de la muestra que se genera?