Vamos a generalizar, para centrarnos en el quid de la cuestión. Explicaré los más mínimos detalles para que no queden dudas. El análisis sólo requiere lo siguiente:
-
El media aritmética de un conjunto de números z1,…,zmz1,…,zm se define como
1m(z1+⋯+zm).1m(z1+⋯+zm).
-
La expectativa es un operador lineal. Es decir, cuando Zi,i=1,…,mZi,i=1,…,m son variables aleatorias y αiαi son números, entonces la expectativa de una combinación lineal es la combinación lineal de las expectativas,
E(α1Z1+⋯+αmZm)=α1E(Z1)+⋯+αmE(Zm).
Dejemos que B sea una muestra (B1,…,Bk) obtenido de un conjunto de datos x=(x1,…,xn) tomando k elementos uniformemente de x con la sustitución. Deje que m(B) sea la media aritmética de B . Se trata de una variable aleatoria. Entonces
E(m(B))=E(1k(B1+⋯+Bk))=1k(E(B1)+⋯+E(Bk))
se sigue por linealidad de la expectativa. Como los elementos de B se obtienen de la misma manera, todos tienen la misma expectativa, b decir:
E(B1)=⋯=E(Bk)=b.
Esto simplifica lo anterior a
E(m(B))=1k(b+b+⋯+b)=1k(kb)=b.
Por definición, la expectativa es la suma de valores ponderada por la probabilidad. Como cada valor de X se supone que tiene la misma probabilidad de 1/n de ser seleccionado,
E(m(B))=b=E(B1)=1nx1+⋯+1nxn=1n(x1+⋯+xn)=ˉx,
la media aritmética de los datos.
Para responder a la pregunta, si se utiliza la media de los datos ˉx para estimar la media poblacional, entonces la media bootstrap (que es el caso k=n ) también es igual a ˉx y por lo tanto es idéntico como estimador de la media de la población.
En el caso de las estadísticas que no son funciones lineales de los datos, el mismo resultado no es necesariamente válido. Sin embargo, sería un error sustituir simplemente la media del bootstrap por el valor de la estadística en los datos: no es así como funciona el bootstrap. En su lugar, comparando la media del bootstrap con la estadística de los datos obtenemos información sobre el sesgo de la estadística. Esto puede utilizarse para ajustar la estadística original para eliminar el sesgo. Así, la estimación corregida por el sesgo se convierte en una combinación algebraica de la estadística original y la media del bootstrap. Para más información, busque "BCa" (bias-corrected and accelerated bootstrap) y "ABC". Wikipedia proporciona algunas referencias.