1 votos

Qué bien estima la media de una muestra la media.

Dejemos que $X$ sea un conjunto finito con $n$ elementos y dejar que $f:X\to [c,d]$ sea una función donde $[c,d]$ en un intervalo en $\Bbb R$ y que $\epsilon > 0$ y el entero positivo $m\le n$ se arreglen.

Por cada $Y\subseteq X$ dejamos que $M(Y)=\sum_{y\in Y}$ f(y).

Dejemos que $\mathcal P_m(X)$ sea el conjunto de todos los subconjuntos $Y\subseteq X$ con $|Y|=m$ . ¿Hay alguna manera de aproximar o calcular la probabilidad de que $$\left |\frac{M(X)}{|X|}-\frac{M(Y)}{|Y|}\right |\le \epsilon$$ cuando $Y$ se elige accidentalmente entre $\mathcal P_m(X)$ .

De hecho, esta probabilidad muestra si una muestra con $m$ miembros se elige entre $X$ , lo bien que la media de la muestra estima la media de $X$ .

El principal problema es que hay un número incalculable de funciones $f$ y parece difícil encontrar una fórmula de probabilidad para todas las funciones o el valor medio de todas las probabilidades para diferentes $f$ s.

1voto

Bey Puntos 1928

Tienes razón en que la probabilidad de la desviación de la verdadera estadística de la muestra no tiene una forma general agradable para todos $f$ . Tiene condiciones muy generales sobre $f$ , por lo que no habrá ninguna fórmula de este tipo. Voy a ofrecer dos sugerencias:

Opción 1

Desde $X$ es finito, en realidad se puede calcular esta estadística exactamente (en principio) bajo el supuesto de un muestreo aleatorio simple de subconjuntos $Y$ :

  1. Habrá $K_m= {n \choose m}$ subconjuntos en $\mathcal{P}_m(X)$ .
  2. Para cada $y \in \mathcal{P}_m(X)$ , calcule $f(y)$ y registrar su valor en una lista $L_m$
  3. Ordenar los elementos en $L_m$ de menor a mayor para obtener $L_m^*$
  4. Dividir cada elemento en $L^*_m$ por $K_m$ .
  5. Ahora bien, si se trata de un estudio teórico y se sabe realmente $M(X)$ , entonces se puede restar $\frac{M(X)}{|X|}$ de $L^*_m$ para conseguir $\textrm{adj-}L^*_m$ . Esto le dará una lista ordenada de desviaciones de la verdadera estadística de la población. Puede convertirla en una distribución de desviaciones absolutas tomando el valor absoluto de cada elemento en $\textrm{adj-}L^*_m$ y luego crear la función de distribución acumulativa a partir de esta lista.
  6. Si realmente estás realizando una inferencia, entonces no sabrás $M(X)$ por lo que se puede aplicar el bootstrapping sustituyendo $\frac{M(X)}{|X|}$ con $\frac{M(Y)}{|Y|}$ (el estadístico de la muestra, y luego proceder con el paso $5$ . Esta será una estimación bootstrap de la estadística de desviación absoluta.

Opción 2

Si asumimos que $f$ está acotado sobre $X$ y que $m,n$ son grandes (digamos, $\gg 30$ ), entonces el supuesto de muestreo aleatorio simple de subconjuntos de $X$ sugiere que podemos utilizar el Teorema Central del Límite para aproximar la desviación:

  1. Para una muestra determinada $Y\subseteq X$ , calcule $\frac{M(Y)}{|Y|}$ y calcular el desviación estándar de la muestra de la población finita : $s_{m,n} = s_m\sqrt{\frac{n-m}{n-1}}$
  2. Aproximar la distribución muestral de las desviaciones mediante una distribución gaussiana $\mathcal{N}(0,s_{m,n})$ (la media es cero porque la estimación de la muestra es insesgada).
  3. Se puede obtener la fdc aproximada de las desviaciones absolutas aprovechando la simetría de la distribución normal.

$$P\left(\left |\frac{M(X)}{|X|}-\frac{M(Y)}{|Y|}\right |\le \epsilon\right) \approx 2\Phi\left(\frac{\epsilon}{s_{m,n}}\right)-1$$

0 votos

¿Puede explicar qué $2\Phi\left(\frac{\epsilon}{s_{m,n}}\right)-1$ es, en palabras sencillas?

0 votos

@user795571. Claro que sí. $\Phi(\cdot)$ es la función de distribución acumulativa de la densidad normal estándar ( $\mu=0,\sigma=1$ ). Ahora, como el argumento en el LHS de la última ecuación es sólo positivo, estamos reflejando efectivamente la parte negativa de la densidad normal al eje positivo. Esto significa que esperamos que el lado derecho sea 0 para $\epsilon =0$ y el RHS para acercarse a 1 como $\epsilon \to \infty$ . La fórmula en el argumento del lado derecho $\frac{\epsilon}{s_{n,m}}$ es sólo calcular la puntuación z de un dar $\epsilon$ por lo que podemos introducirlo en la CDF normal estándar.

0 votos

Hace $2\Phi\left(\frac{\epsilon}{s_{m,n}}\right)-1$ estimar la probabilidad de que $\left |\frac{M(X)}{|X|}-\frac{M(Y)}{|Y|}\right |\le \epsilon$ ?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X