21 votos

¿Cálculo del tamaño de la muestra necesario, precisión de la estimación de la varianza?

Antecedentes

Tengo una variable con una distribución desconocida.

Tengo 500 muestras, pero me gustaría demostrar la precisión con la que puedo calcular la varianza, por ejemplo, para argumentar que un tamaño de muestra de 500 es suficiente. También me interesa saber el tamaño mínimo de la muestra que se necesitaría para estimar la varianza con una precisión de $X\%$ .

Preguntas

¿Cómo puedo calcular

  1. la precisión de mi estimación de la varianza dado un tamaño de muestra de $n=500$ ? de $n=N$ ?
  2. ¿Cómo puedo calcular el número mínimo de muestras necesarias para estimar la varianza con una precisión de $X$ ?

Ejemplo

Figura 1 estimación de la densidad del parámetro basada en las 500 muestras.

enter image description here

Figura 2 Aquí hay un gráfico del tamaño de la muestra en el eje x frente a las estimaciones de la varianza en el eje y que he calculado utilizando submuestras de la muestra de 500. La idea es que las estimaciones convergerán a la verdadera varianza a medida que aumente n.

Sin embargo, las estimaciones no son válidamente independientes ya que las muestras utilizadas para estimar la varianza para $n \in [10,125,250,500]$ no son independientes entre sí ni de las muestras utilizadas para calcular la varianza en $n\in [20,40,80]$

enter image description here

19voto

giulio Puntos 166

Aprender una variante es difícil.

En muchos casos, se necesita un número (quizá sorprendente) de muestras para estimar bien una varianza. A continuación, mostraré el desarrollo para el caso "canónico" de una muestra normal i.i.d.

Supongamos que $Y_i$ , $i=1,\ldots,n$ son independientes $\mathcal{N}(\mu, \sigma^2)$ variables aleatorias. Buscamos un $100(1-\alpha)\%$ intervalo de confianza para la varianza tal que la anchura del intervalo sea $\rho s^2$ es decir, la anchura es $100\rho \%$ de la estimación puntual. Por ejemplo, si $\rho = 1/2$ entonces la anchura del IC es la mitad del valor de la estimación puntual, por ejemplo, si $s^2 = 10$ entonces la IC sería algo así como $(8,\,13)$ con una anchura de 5. Obsérvese también la asimetría en torno a la estimación puntual. ( $s^2$ es el estimador insesgado de la varianza).

"El" (más bien, "un") intervalo de confianza para $s^2$ es $$ \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \leq \sigma^2 \leq \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} \>, $$ donde $\chi_{(n-1)}^{2\;\beta}$ es el $\beta$ cuantil de la distribución chi-cuadrado con $n-1$ grados de libertad. (Esto surge del hecho de que $(n-1)s^2/\sigma^2$ es una cantidad fundamental en un entorno gaussiano).

Queremos minimizar la anchura para que $$ L(n) = \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{(n-1) s^2}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} < \rho s^2 \>, $$ por lo que nos queda resolver para $n$ tal que $$ (n-1) \left(\frac{1}{\chi_{(n-1)}^{2\;(\alpha/2)}} - \frac{1}{\chi_{(n-1)}^{2\;(1-\alpha/2)}} \right) < \rho . $$

Para el caso de un intervalo de confianza del 99%, obtenemos $n = 65$ para $\rho = 1$ y $n = 5321$ para $\rho = 0.1$ . En este último caso se obtiene un intervalo que es ( ¡todavía! ) 10% tan grande como la estimación puntual de la varianza.

Si el nivel de confianza elegido es inferior al 99%, se obtendrá el mismo intervalo de anchura para un valor inferior de $n$ . Pero, $n$ todavía puede ser más grande de lo que usted hubiera imaginado.

Un gráfico del tamaño de la muestra $n$ frente a la anchura proporcional $\rho$ muestra algo que parece asintóticamente lineal en una escala logarítmica; en otras palabras, una relación similar a una ley de potencia. Podemos estimar la potencia de esta relación de ley de potencia (groseramente) como

$$ \hat{\alpha} \approx \frac{\log 0.1 - \log 1}{\log 5321 - \log 65} = \frac{-\log 10}{\log \frac{5231}{65}} \approx -0.525 , $$

que, por desgracia, es decididamente lento.


Este es el caso "canónico" para que te hagas una idea de cómo hacer el cálculo. Según tus gráficos, tus datos no parecen especialmente normales; en particular, hay lo que parece ser una asimetría notable.

Pero esto debería darle una idea aproximada de lo que puede esperar. Tenga en cuenta que para responder a su segunda pregunta, es necesario fijar primero un nivel de confianza, que he fijado en el 99% en el desarrollo anterior para fines de demostración.

13voto

Krzysztof Kowalczyk Puntos 1995

Para variables aleatorias i.i.d. $X_1, \dotsc, X_n$ el estimador insesgado de la varianza $s^2$ (el que tiene denominador $n-1$ ) tiene varianza:

$$\mathrm{Var}(s^2) = \sigma^4 \left(\frac{2}{n-1} + \frac{\kappa}{n}\right)$$

donde $\kappa$ es el exceso de curtosis de la distribución (referencia: Wikipedia ). Por lo tanto, ahora tiene que estimar también la curtosis de su distribución. Puede utilizar una cantidad que a veces se describe como $\gamma_2$ (también de Wikipedia ):

$$\gamma_2 = \frac{\mu_4}{\sigma_4} - 3$$

Supongo que si utiliza $s$ como una estimación para $\sigma$ y $\gamma_2$ como una estimación para $\kappa$ que obtenga una estimación razonable de $\mathrm{Var}(s^2)$ aunque no veo la garantía de que sea imparcial. Mira si coincide con la varianza entre los subconjuntos de tus 500 puntos de datos razonablemente, y si lo hace no te preocupes más :)

1voto

Bryan Rehbein Puntos 3947

Yo me centraría en la DS más que en la varianza, ya que está en una escala que se interpreta más fácilmente.

La gente a veces se fija en los intervalos de confianza para las DE o las varianzas, pero la atención se centra generalmente en las medias.

Los resultados que da para la distribución de $s^2/\sigma^2$ puede utilizarse para obtener un intervalo de confianza para $\sigma^2$ (y así también $\sigma$ ); la mayoría de los textos introductorios de matemáticas/estadística darían los detalles en la misma sección en la que la ditribución de $\sigma^2$ se mencionó. Yo sólo tomaría el 2,5% de cada cola.

1voto

farzad Puntos 4180

La siguiente solución fue dada por Greenwood y Sandomire en un artículo de la JASA de 1950.

Dejemos que $X_1,\dots,X_n$ sea una muestra aleatoria de un $\mathrm{N}(\mu,\sigma^2)$ distribución. Hará inferencias sobre $\sigma$ utilizando como ( sesgado ) estimador de la desviación estándar de la muestra $$ S=\sqrt{\sum_{i=1}^n\frac{(X_i-\bar{X})^2}{n-1}}, $$ y se quiere controlar la probabilidad de que la desviación relativa entre $S$ y $\sigma$ está dentro de una fracción $0<u<1$ . Es decir, $$ \Pr\{S<(1-u)\cdot\sigma\}=a \quad\text{and}\quad \Pr\{S>(1+u)\cdot\sigma\}=b, $$ en el que el nivel de significación $\gamma=1-a-b$ .

De ello se desprende que $$ \Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} < (n-1)(1-u)^2\right\} = a $$ y $$ \Pr\!\left\{ \frac{(n-1)S^2}{\sigma^2} > (n-1)(1+u)^2\right\} = b. $$ Dado que la cantidad fundamental $(n-1)S^2/\sigma^2$ tiene $\chi^2_{n-1}$ distribución, sumando las dos probabilidades, encontramos

$$ \gamma = F_{\chi^2_{(n-1)}}((n-1)(1+u)^2) - F_{\chi^2_{(n-1)}}((n-1)(1-u)^2), $$

y el tamaño necesario de la muestra se encuentra resolviendo la primera ecuación en $n$ para un determinado $\gamma$ y $u$ .

R código.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Salida para $u=10\%$ y $\gamma=95\%$ .

Sample size n = 193

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X