9 votos

Intervalos de confianza para ECDF

El Dvoretzky–Kiefer–Wolfowitz la desigualdad es la siguiente:

$Pr(\text{sup}|\hat{F}_n(x)-F(x)|>\epsilon)\leq 2\exp(-2n\epsilon^2)$,

y predice cómo cerrar una determinada empíricamente la función de distribución será la función de distribución de la que el empírico, las muestras se toman. El uso de esta desigualdad somos capaces de establecer intervalos de confianza (IC) alrededor de $\hat{F}_n(x)$ (ECDF). Pero estas CI, será la misma distancia alrededor de cada punto de la ECDF .

Lo que me pregunto, ¿hay otro camino para la construcción de un CI alrededor de la ECDF?

Leyendo sobre ordenó estadísticas encontramos que la distribución asintótica de la orden de estadística es el siguiente:

formula from hyperlink

Ahora, en primer lugar, lo que hace el $np$-índice con los símbolos significan?

Pregunta principal: ¿somos capaces de utilizar este resultado, junto con el método delta (ver más abajo), para proveer de CI para el ECDF. Quiero decir, el ECDF es una función de la orden de estadística, derecho? Pero, al mismo tiempo, la ECDF es no paramétrica de la función, así que es un callejón sin salida?

Sabemos que $E(\hat{F}_n(x))=F(x)$ y $\text{Var}(\hat{F}_n(x))=\frac{F(x)(1-F(x))}{n}$

Espero ser claro en cuanto a lo que yo estoy diciendo aquí, y agradezco cualquier ayuda.

EDITAR:

Método Delta: Si usted tiene una secuencia de variables aleatorias $X_n$ satisfactorio

enter image description here,

y $\theta$ $\sigma^2$ son finitos, entonces el siguiente es satisfecho:

enter image description here,

para cualquier función g que satisface la propiedad de que $g′(\theta)$ existe, no es cero valorado, y es exponencialmente vinculada con la variable aleatoria (cita de wikipedia)

5voto

prabu R Puntos 126

Veo que no hay manera de usar el método delta, pero...

La lectura acerca de la convergencia de la distribución empírica de la función leemos que el teorema central del límite nos da:

$\sqrt{n}(\hat{F}_n(x)-F(x)) \rightarrow \mathcal{N}(0,F(x)(1-F(x)))$

Podemos usar esto para crear variables de CI alrededor de cada una de las $\hat{F}_n(x)$:

$\hat{F}_n(x) \pm 1.96\frac{\hat{F}_n(x)(1-\hat{F}_n(x))}{n}$,

desde $E(\hat{F}_n(x))=F(x)$, $\hat{F}_n(x)$ es nuestra mejor estimación de $F(x)$.

El uso de los siguientes R-código:

#confidenc ebands calculation:
sim_norm<-rnorm(100)
plot(sim_norm)
hist(sim_norm)
sim_norm_sort<-sort(sim_norm)
n = sum(!is.na(sim_norm_sort))
plot(sim_norm_sort, (1:n)/n, type = 's', ylim = c(0, 1), 
     xlab = 'sample', ylab = '', main = 'Empirical Cumluative Distribution')

# Dvoretzky–Kiefer–Wolfowitz inequality:
# P ( sup|F_n - F| > epsilon  ) leq 2*exp(-2n*epsilon^2)
# set alpha to 0.05 and alpha=2*exp(-2n*epsilon^2):
# --> epsilon_n = sqrt(-log(0.5*0.05)/(2*n))
#
#lower and upper bands:
L<-1:n
U<-1:n


  epsilon_i = sqrt(log(2/0.05)/(2*n))

  L=pmax(1:n/n-epsilon_i, 0)
  U=pmin(1:n/n+epsilon_i, 1)
  lines(sim_norm_sort, U, col="blue")
  lines(sim_norm_sort, L, col="blue")

#using clt:
U2=(1:n/n)+1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
L2=(1:n/n)-1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
lines(sim_norm_sort, L2, col="red")
lines(sim_norm_sort, U2, col="red")

Obtenemos:

Blue = KWD bands, Red = CLT bands

Vemos que las bandas rojas (de la CLT método) nos da más estrechas bandas de confianza.

EDITAR: Como @Kjetil B Halvorsen señaló - estos dos tipos de bandas de diferentes tipos. Tuve @Glen_b explicar exactamente lo que quería decir:

Tipos muy diferentes de las bandas de confianza. Con un pointwise banda de confianza que usted esperaría de un número de puntos fuera de la banda, incluso si se trataba de la distribución a partir de la cual los datos fueron extraídos. Con simultánea bandas que no. Si usted tiene un 95% de pointwise de la banda, en promedio el 5% de los puntos para la distribución correcta sería fuera de las bandas. Con la simultánea de las bandas, hay un 5% de probabilidad de que el punto con la mayor desviación se fuera.

Muchas gracias a los dos!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X