31 votos

Media de la muestra bootstrap frente a la estadística de la muestra

Digamos que tengo un muestra y el muestra de bootstrap de esta muestra para una estástica χχ (por ejemplo, la media). Como todos sabemos, esta muestra bootstrap estimaciones el distribución del muestreo del estimador de la estadística.

Ahora, ¿es la media de este muestra de bootstrap una mejor estimación de la estadística de la población que la estadística del original muestra ? ¿En qué condiciones sería así?

33voto

jldugger Puntos 7490

Vamos a generalizar, para centrarnos en el quid de la cuestión. Explicaré los más mínimos detalles para que no queden dudas. El análisis sólo requiere lo siguiente:

  1. El media aritmética de un conjunto de números z1,,zmz1,,zm se define como

    1m(z1++zm).1m(z1++zm).

  2. La expectativa es un operador lineal. Es decir, cuando Zi,i=1,,mZi,i=1,,m son variables aleatorias y αiαi son números, entonces la expectativa de una combinación lineal es la combinación lineal de las expectativas,

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

Dejemos que B sea una muestra (B1,,Bk) obtenido de un conjunto de datos x=(x1,,xn) tomando k elementos uniformemente de x con la sustitución. Deje que m(B) sea la media aritmética de B . Se trata de una variable aleatoria. Entonces

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

se sigue por linealidad de la expectativa. Como los elementos de B se obtienen de la misma manera, todos tienen la misma expectativa, b decir:

E(B1)==E(Bk)=b.

Esto simplifica lo anterior a

E(m(B))=1k(b+b++b)=1k(kb)=b.

Por definición, la expectativa es la suma de valores ponderada por la probabilidad. Como cada valor de X se supone que tiene la misma probabilidad de 1/n de ser seleccionado,

E(m(B))=b=E(B1)=1nx1++1nxn=1n(x1++xn)=ˉx,

la media aritmética de los datos.

Para responder a la pregunta, si se utiliza la media de los datos ˉx para estimar la media poblacional, entonces la media bootstrap (que es el caso k=n ) también es igual a ˉx y por lo tanto es idéntico como estimador de la media de la población.


En el caso de las estadísticas que no son funciones lineales de los datos, el mismo resultado no es necesariamente válido. Sin embargo, sería un error sustituir simplemente la media del bootstrap por el valor de la estadística en los datos: no es así como funciona el bootstrap. En su lugar, comparando la media del bootstrap con la estadística de los datos obtenemos información sobre el sesgo de la estadística. Esto puede utilizarse para ajustar la estadística original para eliminar el sesgo. Así, la estimación corregida por el sesgo se convierte en una combinación algebraica de la estadística original y la media del bootstrap. Para más información, busque "BCa" (bias-corrected and accelerated bootstrap) y "ABC". Wikipedia proporciona algunas referencias.

13voto

Lev Puntos 2212

Dado que la distribución bootstrap asociada a una muestra iid X1,,Xn se define como ˆFn(x)=1nni=1IXixXiiidF(x), la media de la distribución bootstrap ˆFn (condicionado a la muestra iid X1,,Xn ) es EˆFn[X]=1nni=1Xi=ˉXn Cuando usted (si tiene que hacerlo) implementa una versión de simulación de esta expectativa, es decir, calcula un promedio de B sorteos aleatorios de ˆFn , ˆEˆFn[X]=1BBb=1XbXiiidˆFn(x), hay cierta variabilidad de Monte Carlo en esta aproximación de EˆFn[X] pero su media (la expectativa de la media empírica, condicionada a la muestra original X1,,Xn ) y su límite cuando el número B de simulaciones bootstrap crece hasta el infinito son ambos exactamente ˉXn .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X