6 votos

"Límite" de convergencia de $\frac{1-(1-c^{n})^{2n}}{(1-c)^{2n}}$

Me he encontrado con este límite de confusión sobre el que me pregunto. Es el siguiente:

$$\displaystyle \lim_{n\to \infty}\frac{1-(1-c^{n})^{2n}}{(1-c)^{2n}}, \;\ 0<c<1$$

He jugado con esto en Maple y encontré que si c es menor que aproximadamente .382 (pero

mayor que 0), converge a 0. Si c es mayor que 0,382 (pero menor que 1), converge

diverge. ¿Qué pasa con el 382?

.382 es una aproximación. Jugando más podría haber sacado más decimales.

El problema actual pide demostrar que el límite anterior es < $\frac{1}{p(n)}$ donde p(n) es un polinomio.

Me preguntaba principalmente cómo resolver el límite y por qué 0,382 es tan significativo.

Muchas gracias a todos. Siempre sois de gran ayuda.

6voto

Vincent Puntos 5027

Gracias por tan buena pregunta, y sobre todo por recopilar toda esa información. Desgraciadamente, el libro que describes no existe, y para ser sincero, no podría existir. Si lo que quieres principalmente es un libro de referencia de estadística, yo empezaría con un libro realmente bueno sobre modelos lineales. Mi recomendación es Kutner y otros El artículo, que cumple los criterios de ser mayor que un ladrillo tanto en volumen como en masa, es muy completo, claro y con muchos ejemplos. De hecho, si se elimina el requisito de la R, prácticamente se puede eliminar toda la lista. Lo consulto a menudo. Sin embargo, en ~1500 páginas, prácticamente sólo cubre los modelos lineales -es decir, la regresión y el ANOVA- hay algunos capítulos breves sobre un par de otros temas, pero realmente querrás otros libros para eso. A continuación, me gustaría conseguir un libro de referencia estadística de primera categoría, al nivel apropiado para usted, para cualquier otra técnica que pueda necesitar para trabajar (por ejemplo, análisis de supervivencia, análisis espacial, etc.). Si esos libros no utilizan R para sus ejemplos, es posible que quieras conseguir un libro específico de R, como uno de los libros de use-R!, pero entre la documentación, las viñetas, las listas de correo de ayuda de R, StackOverflow, y CV, es posible que no necesites hacerlo. Si quieres aprender a programar en R de la manera correcta, deberías conseguir uno de esos libros también. En este punto, tienes al menos 4 libros. Lo siento, pero es así. Nadie que trabaje extensamente con la estadística tiene un solo libro que cubra todo.

4voto

CodingBytes Puntos 102

Sugerencia: Utilice la desigualdad de Bernoulli para estimar $(1-c^n)^{2n}$ . A continuación, descubrirá que el valor crítico es $c_0:=(3-\sqrt{5})/2\doteq 0.382$ . Para $c_0\leq c<1$ se requiere una estimación en la otra dirección. Tal vez una aproximación de Taylor adecuada de $(1+x)^{2n}$ para los pequeños $|x|$ ayuda.

2voto

Johan Puntos 1007

Aquí hay un par de algoritmos que harán una estimación robusta del parámetro de la distribución geométrica, junto con un ejemplo. Escribiré la distribución geométrica como $\text{p}(x | p) = p(1-p)^x$ .

El método 1 se basa en que $\text{p}(x+1|p)/\text{p}(x|p) = 1-p$ . Podemos ampliar esto a:

$\frac{\sum_{i=0}^a \text{p}(i|p)}{\sum_{i=a+1}^{2a}\text{p}(i|p)} = (1-p)^a$

Si especificamos $a$ lo suficientemente bajo como para que las frecuencias observadas no estén contaminadas por los valores atípicos, podemos utilizarlo para derivar un estimador robusto de $p$ :

func.rob <- function(x, a) {
  1 - (sum(x>=a & x<(2*a)) / sum(x<a))^(1/a)
}

El método 2 es una media recortada. Se especifica un porcentaje de recorte $\alpha$ y el algoritmo calcula la media de todos los valores menores o iguales al $1-\alpha$ cuantil de los datos. A continuación, encontramos $p$ tal que la distribución geométrica tiene la misma media en el mismo rango.

func.trim <- function(x, a) {
  require(MASS)
  geom.tm <- function(p, xbar, cutoff) {(sum(dgeom(1:cutoff, p)*c(1:cutoff))-xbar)^2}

  cutoff <- quantile(x, a)
  xbar <- mean(x[x <= cutoff])

  optim(0.5, geom.tm, lower=1.0e-05, upper=1-1.0e-05, method="L-BFGS-B",
        xbar=xbar, c=cutoff)$par
}

Utilizamos la minimización del cuadrado en lugar de la búsqueda de la raíz porque no siempre es fácil poner entre paréntesis la raíz; tanto la baja $p$ y alta $p$ dará medias recortadas muy bajas para cortes que son pequeños en relación con la media real de la distribución. Además, me parece que es posible que no haya solución a este problema, especialmente para muestras pequeñas; sin embargo, no lo he observado en decenas de miles de ejecuciones con muestras de tamaño 250.

A continuación se presentan algunas comparaciones con la MLE para datos no contaminados y contaminados, con un tamaño de muestra de 250, $p=0.4$ . Primero, 10.000 ejecuciones con datos no contaminados:

> func.mle <- function(x) 1/(1+mean(x))
> 
> # Uncontaminated data
> z <- matrix(rgeom(2500000, 0.4), 10000, 250)
> phat.rob <- apply(z, 1, func.rob, a=4)
> phat.trim <- apply(z, 1, func.trim, a=0.75)
> phat.mle <- apply(z, 1, func.mle)
>             
> cat(" Robust estimator sample mean, std. dev.: ",mean(phat.rob),"  ",sd(phat.rob),"\n",
+     "Trim estimator sample mean, std. dev.:   ",mean(phat.trim),"  ",sd(phat.trim),"\n",
+     "ML estimator sample mean, std. dev.:     ",mean(phat.mle),"  ",sd(phat.mle),"\n",
+   "Relative efficiency (robust, trim): ",var(phat.mle)/var(phat.rob),"   ",
+     var(phat.mle)/var(phat.trim), "\n")
 Robust estimator sample mean, std. dev.:  0.4017054    0.03044539 
 Trim estimator sample mean, std. dev.:    0.3874961    0.01849624 
 ML estimator sample mean, std. dev.:      0.4007747    0.01972546 
 Relative efficiency (robust, trim):  0.4197697     1.137332 
> 

Como podemos ver, el estimador robusto parece insesgado, mientras que el estimador recortado tiene un sesgo un poco bajo; sin embargo, el estimador robusto es bastante menos eficiente en el modelo verdadero que el MLE, mientras que el estimador recortado lo hace bastante bien.

Ahora cambiamos el 4% de los valores a 25, un claro valor atípico para esta elección de parámetros:

> # Contaminated data 4% @ 25
> z[,1:10] <- 25
> phat.rob <- apply(z, 1, func.rob, a=4)
> phat.mle <- apply(z, 1, func.mle)
> phat.trim <- apply(z, 1, func.trim, a=0.75)
> mean(phat.rob)
[1] 0.4017998
> mean(phat.trim)
[1] 0.3651195
> mean(phat.mle)
[1] 0.290966
> 

El MLE ha fallado, mientras que el estimador robusto basado en la proporción lo hace bien y el estimador recortado ha caído un poco más bajo; esto se debe a que el uso de un cuantil en lugar de un número crudo da lugar a una estimación sesgada del cuantil, gracias a que todos los valores atípicos están en el lado alto. Aun así, es mucho mejor que el MLE, y es bastante fácil sustituir el cuantil por un número en bruto que esté seguro de que se encuentra por debajo del nivel "atípico".

Editar: (cosas adicionales de la respuesta)

Si decides utilizar algoritmos como los anteriores, te recomiendo que hagas experimentos de simulación como los que yo he hecho para ayudarte a entender sus propiedades.

En cuanto a la identificación de los valores atípicos, se trata de una cuestión delicada en la que interviene el juicio. Si sospechas que la frecuencia de los valores atípicos es baja, por ejemplo, $\le 1\%$ se podría utilizar la estimación robusta de $p$ calcula el $99^{\text{th}}$ percentil de la distribución, y poner todos los puntos de datos que caen por encima de eso en la categoría "sospechoso". Si tienes alguna forma de volver a la fuente de los datos, lo que parece, por un comentario anterior, que tienes, eso ayudaría a clarificar si los puntos eran realmente atípicos. También podrías descartar todo lo que esté por encima de los, por ejemplo, $99.9^{\text{th}}$ Dado que la muestra es muy inferior a 1.000, no es probable que se descarten más que unos pocos puntos de datos buenos. Yo mismo prefiero el enfoque de "filtrar y luego examinar" (cuando es factible) al de "eliminar".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X