4 votos

Método bootstrap fallando cuando bloqueo funciona

Yo soy el cálculo de una media de muestras individuales que no son totalmente independientes y la necesidad de una estimación de la verdadera desviación estándar. Según Newman y Barkema del libro el método más fiable será Bootstrap de muestreo (véase la sección 3.4.3), donde usted no tiene que preocuparse de que las muestras son independientes y que debe dar una estimación de la desviación estándar de la media de $\sigma_m\approx\sigma\ /\sqrt{n}$ donde $n$ es el número de muestras.

Sin embargo he de proceder para calcular el promedio de un número de veces, así que tengo la fuerza bruta estimación de la real $\sigma_m$, y resulta que el bootstrap es constantemente subestimar este.

En sí, que es tal vez no es tan extraño; el bootstrap de ser una estimación. Pero lo raro es que si puedo usar el bloqueo (o agrupamiento) método (véase 3.4.2) me siento mucho mejor estimación -, mientras que según Newman y Barkema esto debería ser mucho más primitivo método.

De hecho, el bootstrap constantemente da una estimación muy cerca de la ingenua $\sigma_m\approx\sqrt{\big(\ \overline{x^2}-\overline{x}^2\ \big)\ /\ n}$.

Alguna idea de lo que está pasando?

2voto

Eric Towers Puntos 8212

Paso 1

Utilizar "$n-1$". Ver http://stats.stackexchange.com/questions/3931/intuitive-explanation-for-dividing-in-n-1-when-calculating-sd . Si usas $n$ tenemos un estimador sesgado de la seg.d. Desde $n> n-1$ el sesgo es negativo (hacia demasiado pequeño s.d.s).

I. e., el uso de $\sigma_m \approx \sigma/\sqrt{n-1}$.

Paso 2

(Añadido por editar en 20150715, basado en la información adicional del cartel.)

Si la cuarta (y/o superior, incluso en los momentos de la distribución de la población) no son cero, entonces la muestra s.d.s pueden estar sesgados los estimadores de la población s.d.s. (Los sesgos de los diversos momentos que podía cancelar, pero eso es raro en la práctica).

La distribución de la muestra desviaciones estándar se distribuye con media igual a la de la población de la desviación estándar y la varianza $\frac{\mu_4}{n} - \frac{\mu_2^2(n-3)}{n(n-1)}$. Es decir, el de las muestras.d. sistemáticamente variar de la población s.d. si el cuarto momento central de la población no es cero. Esta desviación se reducirá a cero como $1/n$.

Relativa al arranque, si la distribución de la población es leptokurtic (tiene exceso de curtosis en relación a la normal estándar, de manera equivalente, es más central, con el diluyente de las colas de una distribución normal), y el inicial de la muestra es representativa, a continuación, una submuestra es probable que subestimar la población s.d. Si la población es platykurtic (centro de baja, colas de grasa) y la inicial de la muestra es representativa, entonces submuestras probabilidades de sobreestimar la población s.d.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X