Contexto
Esta es una pregunta básica sobre los intervalos de confianza. Así que la forma estándar de estimar un intervalo de confianza.Suponiendo que tenemos un conjunto de $N$ variables aleatorias $\{X^i\}$ tal que todas ellas son i.i.d. Sabemos que la media de es converge al límite central de a $N(\mu,\frac{\sigma^2}{N})$ , donde $\mu$ es la verdadera media de $X^i$ y $\sigma^2$ es la verdadera varianza de $X^i$ . Nota: no estamos asumiendo $X^i$ se distribuyen normalmente. El intervalo de confianza se puede estimar
$$ CI_{upper}=\bar{x}+1.96\frac{s}{\sqrt{N}}$$
donde $s$ es la raíz cuadrada de la varianza de la muestra. Para mí, la idea es bastante simple. Suponiendo que $N$ es lo suficientemente grande, realizamos un experimento UNA VEZ, calculamos $\bar{x}=\frac{1}{N}\sum x^i$ que es una estimación insesgada de $\mu$ y calcular $s=\frac{1}{N-1} \sum (x^i-\bar{x})^2 $ que es una estimación insesgada de $\sigma^2$ . Así que nuestro intervalo de confianza da como incertidumbre de repetir el experimento $M$ veces, es decir, si repetimos $M$ veces esperaremos $\mu$ para estar dentro del intervalo de confianza el 95% de las veces. En código, esto se puede escribir como, (esto también se puede ver como la estimación de sólo la media y la varianza de una sola variable aleatoria)
x<-rnorm(100)
mean(x)
var(x)
mean(x)+1.96*var(x)/sqrt(N)
Nota: Estoy asumiendo i.i.d y voy a llegar a una situación en la que no estoy seguro de si i.i.d se aplica y si no lo hace cómo calcular los intervalos de confianza no i.i.d.
Filtro de partículas
Estoy construyendo un filtro de partículas que estima , $p(x_t|y_{1:t})$ . Quiero estimar intervalos de confianza para las estimaciones medias de mis partículas en el tiempo $t$ . Mi hipótesis es que mis estimaciones medias son la mejor estimación del estado, aunque esto no es del todo cierto. En efecto, tengo una aproximación de , $p(x_t|y_{1:t})$ por un conjunto de muestras ponderadas $\{x^i_t, w^i_t\}$ . Por lo tanto, calculo la media ponderada
$$\bar{x}_t=\frac{1}{N}\sum w^i_tx^i_t$$
Pretendo calcular dos cantidades la varianza de $\bar{x}_t$ y los intervalos de confianza en torno a $\bar{x}_t$ El propósito de esto es realmente ver cómo la frecuencia de remuestreo afecta a la varianza, por lo tanto, tenga en cuenta que puedo haber remuestreado mis partículas $\{x^i_t, w^i_t\}$ del paso de tiempo anterior y el índice $i$ no es representativa de la partícula en el momento $t-1$ .
Algunas consecuencias teóricas
Existen teoremas centrales del límite que afirman que mi aproximación ponderada, $E(\hat{p}(x_{t}|y_{1:t}))$ converge en su distribución a una distribución normal con media $E(p(x_{t}|y_{1:t})$ y alguna variante desconocida $\sigma_{pf}^2$ , donde $\hat{p}(x_{t}|y_{1:t})=\frac{1}{N}\sum w^i_t\delta(x_t-x^i_t)$ . No conozco ninguna hipótesis de independencia e idéntica distribución. Aunque he leído en alguna parte que $\{x^i_t,w^i_t\}$ son independientes pero no están idénticamente distribuidos.
¿Cómo se calcula la varianza?
He intentado calcular la varianza mediante la simulación de los datos $\{y_t\}$ (Puedo generar $y_t$ porque sé que $x_t$ ) para calcular $\bar{x}_t$ Estos son los pasos que he seguido 1) Generar $\{y_t\}$ 2) Poner en marcha el filtro 3)Obtener $\bar{x}_t$ 4) Repetir 1)-3) $M$ veces 5)Con mi colección de $M$ piezas de $\bar{x}_t$ denotaremos por $\{\bar{x}_t\}$ Calculo el $mean(\{\bar{x}_t\})$ para obtener una estimación de $E(p(x_{t}|y_{1:t})$ y $var(\{\bar{x}_t\})$ para obtener una estimación $var(p(x_{t}|y_{1:t})$ . Por lo tanto, mi intervalo de confianza es,
$$CI_{upper}=mean(\{\bar{x}_t\})+1.96var(\{\bar{x}_t\})$$
Obsérvese que no divido por $\sqrt{M}$ .
PREGUNTA
-
¿He calculado correctamente la varianza y los intervalos de confianza? $\bar{x_t}$ También cuando calculo el intervalo de confianza, no utilizo el número de simulaciones. También teniendo en cuenta el hecho de que $\{x^i_t\}$ puede no estar idénticamente distribuido estoy estimando el $var(\{ \bar{x}_t\})$ ¿correctamente?
-
¿Hay alguna forma de calcular el intervalo de confianza de $\bar{x}_t$ sin necesidad de simular?
-
¿Fue correcto que obtuviera instancias de $\bar{x}_t$ generando un nuevo $\{y_t\}$ en cada simulación. ¿No cambia esto la distribución que estoy estimando en primer lugar, $p(x_t|y_{1:t})$ ?
EDIT: en respuesta a los comentarios de @Taylors
Como puede ver, mis intervalos de confianza construidos, que se muestran con las dos líneas rojas, son demasiado estrechos. Mis estados verdaderos, que se muestran con puntos negros, están fuera del intervalo con demasiada frecuencia. Estoy usando un paseo aleatorio simple con una varianza de proceso fija de 1 y una varianza de medición de 3. El intervalo estrecho fue cuando divido por $\sqrt{N}$ y el intervalo amplio es cuando no divido por $\sqrt{N}$