24 votos

¿Por qué utilizamos una fórmula de desviación estándar sesgada y engañosa para $\sigma$ de una distribución normal?

La primera vez que hice una simulación de Monte Carlo de una distribución normal y descubrí que la media de $100$ desviaciones estándar de $100$ muestras, todas ellas con un tamaño de muestra de sólo $n=2$ resultó ser mucho menor que, por ejemplo, la media de $ \sqrt{\frac{2}{\pi }}$ veces, el $\sigma$ utilizado para generar la población. Sin embargo, esto es bien conocido, aunque rara vez se recuerde, y más o menos lo sabía, o no habría hecho una simulación. He aquí una simulación.

Este es un ejemplo para predecir los intervalos de confianza del 95% de $N(0,1)$ usando 100, $n=2$ , las estimaciones de $\text{SD}$ y $\text{E}(s_{n=2})=\sqrt\frac{\pi}{2}\text{SD}$ .

 RAND()   RAND()    Calc    Calc    
 N(0,1)   N(0,1)    SD      E(s)    
-1.1171  -0.0627    0.7455  0.9344  
 1.7278  -0.8016    1.7886  2.2417  
 1.3705  -1.3710    1.9385  2.4295  
 1.5648  -0.7156    1.6125  2.0209  
 1.2379   0.4896    0.5291  0.6632  
-1.8354   1.0531    2.0425  2.5599  
 1.0320  -0.3531    0.9794  1.2275  
 1.2021  -0.3631    1.1067  1.3871  
 1.3201  -1.1058    1.7154  2.1499  
-0.4946  -1.1428    0.4583  0.5744  
 0.9504  -1.0300    1.4003  1.7551  
-1.6001   0.5811    1.5423  1.9330  
-0.5153   0.8008    0.9306  1.1663  
-0.7106  -0.5577    0.1081  0.1354  
 0.1864   0.2581    0.0507  0.0635  
-0.8702  -0.1520    0.5078  0.6365  
-0.3862   0.4528    0.5933  0.7436  
-0.8531   0.1371    0.7002  0.8775  
-0.8786   0.2086    0.7687  0.9635  
 0.6431   0.7323    0.0631  0.0791  
 1.0368   0.3354    0.4959  0.6216  
-1.0619  -1.2663    0.1445  0.1811  
 0.0600  -0.2569    0.2241  0.2808  
-0.6840  -0.4787    0.1452  0.1820  
 0.2507   0.6593    0.2889  0.3620  
 0.1328  -0.1339    0.1886  0.2364  
-0.2118  -0.0100    0.1427  0.1788  
-0.7496  -1.1437    0.2786  0.3492  
 0.9017   0.0022    0.6361  0.7972  
 0.5560   0.8943    0.2393  0.2999  
-0.1483  -1.1324    0.6959  0.8721  
-1.3194  -0.3915    0.6562  0.8224  
-0.8098  -2.0478    0.8754  1.0971  
-0.3052  -1.1937    0.6282  0.7873  
 0.5170  -0.6323    0.8127  1.0186  
 0.6333  -1.3720    1.4180  1.7772  
-1.5503   0.7194    1.6049  2.0115  
 1.8986  -0.7427    1.8677  2.3408  
 2.3656  -0.3820    1.9428  2.4350  
-1.4987   0.4368    1.3686  1.7153  
-0.5064   1.3950    1.3444  1.6850  
 1.2508   0.6081    0.4545  0.5696  
-0.1696  -0.5459    0.2661  0.3335  
-0.3834  -0.8872    0.3562  0.4465  
 0.0300  -0.8531    0.6244  0.7826  
 0.4210   0.3356    0.0604  0.0757  
 0.0165   2.0690    1.4514  1.8190  
-0.2689   1.5595    1.2929  1.6204  
 1.3385   0.5087    0.5868  0.7354  
 1.1067   0.3987    0.5006  0.6275  
 2.0015  -0.6360    1.8650  2.3374  
-0.4504   0.6166    0.7545  0.9456  
 0.3197  -0.6227    0.6664  0.8352  
-1.2794  -0.9927    0.2027  0.2541  
 1.6603  -0.0543    1.2124  1.5195  
 0.9649  -1.2625    1.5750  1.9739  
-0.3380  -0.2459    0.0652  0.0817  
-0.8612   2.1456    2.1261  2.6647  
 0.4976  -1.0538    1.0970  1.3749  
-0.2007  -1.3870    0.8388  1.0513  
-0.9597   0.6327    1.1260  1.4112  
-2.6118  -0.1505    1.7404  2.1813  
 0.7155  -0.1909    0.6409  0.8033  
 0.0548  -0.2159    0.1914  0.2399  
-0.2775   0.4864    0.5402  0.6770  
-1.2364  -0.0736    0.8222  1.0305  
-0.8868  -0.6960    0.1349  0.1691  
 1.2804  -0.2276    1.0664  1.3365  
 0.5560  -0.9552    1.0686  1.3393  
 0.4643  -0.6173    0.7648  0.9585  
 0.4884  -0.6474    0.8031  1.0066  
 1.3860   0.5479    0.5926  0.7427  
-0.9313   0.5375    1.0386  1.3018  
-0.3466  -0.3809    0.0243  0.0304  
 0.7211  -0.1546    0.6192  0.7760  
-1.4551  -0.1350    0.9334  1.1699  
 0.0673   0.4291    0.2559  0.3207  
 0.3190  -0.1510    0.3323  0.4165  
-1.6514  -0.3824    0.8973  1.1246  
-1.0128  -1.5745    0.3972  0.4978  
-1.2337  -0.7164    0.3658  0.4585  
-1.7677  -1.9776    0.1484  0.1860  
-0.9519  -0.1155    0.5914  0.7412  
 1.1165  -0.6071    1.2188  1.5275  
-1.7772   0.7592    1.7935  2.2478  
 0.1343  -0.0458    0.1273  0.1596  
 0.2270   0.9698    0.5253  0.6583  
-0.1697  -0.5589    0.2752  0.3450  
 2.1011   0.2483    1.3101  1.6420  
-0.0374   0.2988    0.2377  0.2980  
-0.4209   0.5742    0.7037  0.8819  
 1.6728  -0.2046    1.3275  1.6638  
 1.4985  -1.6225    2.2069  2.7659  
 0.5342  -0.5074    0.7365  0.9231  
 0.7119   0.8128    0.0713  0.0894  
 1.0165  -1.2300    1.5885  1.9909  
-0.2646  -0.5301    0.1878  0.2353  
-1.1488  -0.2888    0.6081  0.7621  
-0.4225   0.8703    0.9141  1.1457  
 0.7990  -1.1515    1.3792  1.7286  

 0.0344  -0.1892    0.8188  1.0263  mean E(.)
                    SD pred E(s) pred   
-1.9600  -1.9600   -1.6049 -2.0114    2.5%  theor, est
 1.9600   1.9600    1.6049  2.0114   97.5%  theor, est
                    0.3551 -0.0515    2.5% err
                   -0.3551  0.0515   97.5% err

Arrastre el control deslizante hacia abajo para ver los totales generales. Ahora, he utilizado el estimador ordinario de la DE para calcular los intervalos de confianza del 95% en torno a una media de cero, y están desviados en 0,3551 unidades de desviación estándar. El estimador E(s) se desvía sólo en 0,0515 unidades de desviación estándar. Si se estima la desviación estándar, el error estándar de la media o la estadística t, puede haber un problema.

Mi razonamiento fue el siguiente, la media de la población, $\mu$ de dos valores puede estar en cualquier lugar con respecto a un $x_1$ y definitivamente no se encuentra en $\frac{x_1+x_2}{2}$ , lo que hace que la suma al cuadrado sea la mínima posible, por lo que estamos subestimando $\sigma$ sustancialmente, como sigue

w.l.o.g. dejar $x_2-x_1=d$ entonces $\Sigma_{i=1}^{n}(x_i-\bar{x})^2$ es $2 (\frac{d}{2})^2=\frac{d^2}{2}$ el menor resultado posible.

Esto significa que la desviación estándar calculada como

$\text{SD}=\sqrt{\frac{\Sigma_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}$ ,

es un estimador sesgado de la desviación estándar de la población ( $\sigma$ ). Obsérvese que en esa fórmula disminuimos los grados de libertad de $n$ por 1 y dividiendo por $n-1$ es decir, hacemos alguna corrección, pero sólo es asintóticamente correcta, y $n-3/2$ sería una mejor regla general . Para nuestro $x_2-x_1=d$ ejemplo el $\text{SD}$ fórmula nos daría $SD=\frac{d}{\sqrt 2}\approx 0.707d$ un valor mínimo estadísticamente inverosímil como $\mu\neq \bar{x}$ donde un mejor valor esperado ( $s$ ) sería $E(s)=\sqrt{\frac{\pi }{2}}\frac{d}{\sqrt 2}=\frac{\sqrt\pi }{2}d\approx0.886d$ . Para el cálculo habitual, para $n<10$ , $\text{SD}$ s sufren una subestimación muy significativa llamada sesgo de número pequeño que sólo se acerca al 1% de subestimación de $\sigma$ cuando $n$ es aproximadamente $25$ . Dado que muchos experimentos biológicos han $n<25$ En efecto, se trata de un problema. Para $n=1000$ El error es de aproximadamente 25 partes en 100.000. En general, corrección del sesgo de los números pequeños implica que el estimador insesgado de la desviación típica de la población de una distribución normal es

$\text{E}(s)\,=\,\,\frac{\Gamma\left(\frac{n-1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\sqrt{\frac{\Sigma_{i=1}^{n}(x_i-\bar{x})^2}{2}}>\text{SD}=\sqrt{\frac{\Sigma_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}\; .$

Desde Wikipedia bajo licencias creative commons se tiene una parcela de subestimación SD de $\sigma$ <a title="By Rb88guy (Own work)  CC BY-SA 3.0 (http://creativecommons.org/licenses/by-sa/3.0) or GFDL (http://www.gnu.org/copyleft/fdl.html) , via Wikimedia Commons" href="https://commons.wikimedia.org/wiki/File%3AStddevc4factor.jpg"><img width="512" alt="Stddevc4factor" src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ee/Stddevc4factor.jpg/512px-Stddevc4factor.jpg"/></a>

Dado que la DS es un estimador sesgado de la desviación típica de la población, no puede ser el estimador insesgado de mínima varianza MVUE de la desviación estándar de la población, a menos que nos conformemos con decir que es MVUE como $n\rightarrow \infty$ , cosa que yo, por ejemplo, no soy.

En cuanto a las distribuciones no normales y aproximadamente insesgadas $SD$ leer este .

Ahora viene la pregunta Q1

¿Se puede demostrar que el $\text{E}(s)$ arriba es MVUE para $\sigma$ de una distribución normal de tamaño de muestra $n$ , donde $n$ es un número entero positivo mayor que uno?

Pista: (Pero no la respuesta) ver ¿Cómo puedo encontrar la desviación estándar de la muestra de una distribución normal? .

Siguiente pregunta, Q2

¿Podría alguien explicarme por qué estamos usando $\text{SD}$ de todos modos, ya que es claramente tendencioso y engañoso? Es decir, ¿por qué no utilizar $\text{E}(s)$ ¿para casi todo? Suplementariamente, ha quedado claro en las respuestas siguientes que la varianza es insesgada, pero su raíz cuadrada es sesgada. Solicito que las respuestas aborden la cuestión de cuándo debe utilizarse la desviación estándar insesgada.

Resulta que una respuesta parcial es que, para evitar el sesgo en la simulación anterior, se podrían haber promediado las varianzas en lugar de los valores SD. Para ver el efecto de esto, si elevamos al cuadrado la columna de SD anterior, y promediamos esos valores obtenemos 0,9994, cuya raíz cuadrada es una estimación de la desviación estándar 0,9996915 y cuyo error es sólo 0,0006 para la cola del 2,5% y -0,0006 para la cola del 95%. Nótese que esto se debe a que las varianzas son aditivas, por lo que promediarlas es un procedimiento de bajo error. Sin embargo, las desviaciones estándar están sesgadas, y en aquellos casos en los que no podemos permitirnos el lujo de utilizar las varianzas como intermediario, seguimos necesitando la corrección de números pequeños. Incluso si podemos utilizar la varianza como intermediario, en este caso para $n=100$ La corrección de muestras pequeñas sugiere multiplicar la raíz cuadrada de la varianza insesgada 0,9996915 por 1,002528401 para obtener 1,002219148 como estimación insesgada de la desviación estándar. Así que, sí, podemos retrasar el uso de la corrección de números pequeños, pero ¿deberíamos por tanto ignorarla por completo?

La cuestión aquí es cuándo deberíamos utilizar la corrección de números pequeños, en lugar de ignorar su uso, y predominantemente, hemos evitado su uso.

He aquí otro ejemplo, el número mínimo de puntos en el espacio para establecer una tendencia lineal que tenga un error es de tres. Si ajustamos estos puntos con mínimos cuadrados ordinarios el resultado para muchos de estos ajustes es un patrón residual normal doblado si hay no linealidad y medio normal si hay linealidad. En el caso medio normal nuestra media de distribución requiere una corrección de números pequeños. Si intentamos el mismo truco con 4 o más puntos, la distribución no será generalmente normal o fácil de caracterizar. ¿Podemos utilizar la varianza para combinar de alguna manera esos resultados de 3 puntos? Quizás sí, quizás no. Sin embargo, es más fácil concebir los problemas en términos de distancias y vectores.

35voto

GeoMatt22 Puntos 1290

Para la pregunta más restringida

¿Por qué se suele utilizar una fórmula de desviación estándar sesgada?

la respuesta sencilla

Debido a que los asociados desviación el estimador es insesgado. No existe una justificación matemática/estadística real.

puede ser preciso en muchos casos.

Sin embargo, no siempre es así. Hay al menos dos aspectos importantes de estas cuestiones que deben entenderse.

En primer lugar, la varianza de la muestra $s^2$ no sólo es insesgada para las variables aleatorias gaussianas. Es insesgada para cualquier con varianza finita $\sigma^2$ (como se comenta más adelante, en mi respuesta original). La pregunta señala que $s$ no es imparcial para $\sigma$ y sugiere una alternativa insesgada para una variable aleatoria gaussiana. Sin embargo, es importante señalar que, a diferencia de la varianza, para la desviación estándar es no es posible tener un estimador insesgado "sin distribución" (*véase la nota más abajo).

En segundo lugar, como se menciona en el comentario de whuber el hecho de que $s$ es parcial hace no impacto de la "prueba t" estándar. En primer lugar, observe que, para una variable gaussiana $x$ si estimamos las puntuaciones z a partir de una muestra $\{x_i\}$ como $$z_i=\frac{x_i-\mu}{\sigma}\approx\frac{x_i-\bar{x}}{s}$$ entonces estos estarán sesgados.

Sin embargo, la estadística t se suele utilizar en el contexto de la distribución del muestreo de $\bar{x}$ . En este caso, la puntuación z sería $$z_{\bar{x}}=\frac{\bar{x}-\mu}{\sigma_{\bar{x}}}\approx\frac{\bar{x}-\mu}{s/\sqrt{n}}=t$$ aunque no podemos calcular ni $z$ ni $t$ como no sabemos $\mu$ . No obstante, si el $z_{\bar{x}}$ estadística sería normal, entonces el $t$ estadística seguirá una distribución Student-t . No se trata de un gran $n$ aproximación. La única suposición es que el $x$ las muestras son i.i.d. Gaussianas.

(La prueba t suele aplicarse de forma más amplia para los casos posiblemente no gaussianos). $x$ . Este hace dependen de grandes $n$ que por el teorema central del límite asegura que $\bar{x}$ seguirá siendo gaussiano).


*Aclaración sobre el "estimador insesgado sin distribución"

Por "libre de distribución", quiero decir que el estimador no puede depender de ninguna información sobre la población $x$ aparte de la muestra $\{x_1,\ldots,x_n\}$ . Por "insesgado" quiero decir que el error esperado $\mathbb{E}[\hat{\theta}_n]-\theta$ es uniformemente cero, independiente del tamaño de la muestra $n$ . (A diferencia de un estimador que es simplemente asintóticamente imparcial, también conocido como " consistente ", para lo cual el sesgo desaparece como $n\to\infty$ .)

En los comentarios este se dio como un posible ejemplo de "estimador insesgado sin distribución". Abstrayendo un poco, este estimador es de la forma $\hat{\sigma}=f[s,n,\kappa_x]$ , donde $\kappa_x$ es el exceso de curtosis de $x$ . Este estimador es no "libre de distribución", como $\kappa_x$ depende de la distribución de $x$ . Se dice que el estimador satisface $\mathbb{E}[\hat{\sigma}]-\sigma_x=\mathrm{O}[\frac{1}{n}]$ , donde $\sigma_x^2$ es la varianza de $x$ . Por lo tanto, el estimador es consistente, pero no (absolutamente) "insesgado", ya que $\mathrm{O}[\frac{1}{n}]$ puede ser arbitrariamente grande para un tamaño pequeño $n$ .


Nota: A continuación, mi "respuesta" original. A partir de aquí, los comentarios son sobre la media y la varianza "muestral" estándar, que son estimadores insesgados "libres de distribución" (es decir, la población es no se supone que es gaussiano).

Esta no es una respuesta completa, sino una aclaración de por qué el muestra desviación se utiliza habitualmente.

Dada una muestra aleatoria $\{x_1,\ldots,x_n\}$ siempre que las variables tengan una media común, el estimador $\bar{x}=\frac{1}{n}\sum_ix_i$ será imparcialidad es decir $$\mathbb{E}[x_i]=\mu \implies \mathbb{E}[\bar{x}]=\mu$$

Si las variables también tienen una varianza finita común, y son no correlacionado entonces el estimador $s^2=\frac{1}{n-1}\sum_i(x_i-\bar{x})^2$ se también ser imparcial, es decir $$\mathbb{E}[x_ix_j]-\mu^2=\begin{cases}\sigma^2&i=j\\0&i\neq{j}\end{cases} \implies \mathbb{E}[s^2]=\sigma^2$$ Nótese que la insesgadez de estos estimadores depende sólo en los supuestos anteriores (y el linealidad de la expectativa; la prueba es sólo álgebra). El resultado sí no dependen de una distribución particular, como la gaussiana. Las variables $x_i$ hacer no tienen que tener una distribución común, y ni siquiera tienen que ser independiente (es decir, la muestra no tiene que ser i.i.d. ).

La "desviación estándar de la muestra" $s$ es no un estimador insesgado, $\mathbb{s}\neq\sigma$ pero, sin embargo, es de uso común. Mi opinión es que esto se debe simplemente a que es la raíz cuadrada de la varianza insesgada de la muestra. (Sin una justificación más sofisticada).

En el caso de una muestra gaussiana i.i.d., la estimaciones de máxima verosimilitud (MLE) de los parámetros son $\hat{\mu}_\mathrm{MLE}=\bar{x}$ y $(\hat{\sigma}^2)_\mathrm{MLE}=\frac{n-1}{n}s^2$ es decir, la varianza se divide por $n$ en lugar de $n^2$ . Además, en el caso gaussiano i.i.d. la desviación estándar MLE es simplemente la raíz cuadrada de la varianza MLE. Sin embargo, estas fórmulas, así como la que se insinúa en su pregunta, dependen de la hipótesis gaussiana i.i.d.


Actualización: Aclaración adicional sobre "sesgado" frente a "imparcial".

Considere un $n$ -Muestra de elementos como la anterior, $X=\{x_1,\ldots,x_n\}$ con una desviación de la suma cuadrada $$\delta^2_n=\sum_i(x_i-\bar{x})^2$$ Dados los supuestos expuestos en la primera parte, tenemos necesariamente $$\mathbb{E}[\delta^2_n]=(n-1)\sigma^2$$ por lo que el estimador (gaussiano) MLE está sesgado $$\widehat{\sigma^2_n}=\tfrac{1}{n}\delta^2_n \implies \mathbb{E}[\widehat{\sigma^2_n}]=\tfrac{n-1}{n}\sigma^2 $$ mientras que el estimador de la "varianza de la muestra" es insesgado $$s^2_n=\tfrac{1}{n-1}\delta^2_n \implies \mathbb{E}[s^2_n]=\sigma^2$$

Ahora bien, es cierto que $\widehat{\sigma^2_n}$ se convierte en menos sesgada como el tamaño de la muestra $n$ aumentos. Sin embargo, $s^2_n$ tiene sesgo cero sin importar el tamaño de la muestra (siempre que $n>1$ ). Para ambos estimadores, el desviación de su distribución del muestreo será distinto de cero y dependerá de $n$ .

Como ejemplo, el siguiente código Matlab considera un experimento con $n=2$ muestras de una población normalizada $z$ . Para estimar las distribuciones muestrales de $\bar{x},\widehat{\sigma^2},s^2$ el experimento se repite $N=10^6$ tiempos. (Puede cortar y pegar el código ici para probarlo tú mismo).

% n=sample size, N=number of samples
n=2; N=1e6;
% generate standard-normal random #'s
z=randn(n,N); % i.e. mu=0, sigma=1
% compute sample stats (Gaussian MLE)
zbar=sum(z)/n; zvar_mle=sum((z-zbar).^2)/n;
% compute ensemble stats (sampling-pdf means)
zbar_avg=sum(zbar)/N, zvar_mle_avg=sum(zvar_mle)/N
% compute unbiased variance
zvar_avg=zvar_mle_avg*n/(n-1)

La salida típica es como

zbar_avg     =  1.4442e-04
zvar_mle_avg =  0.49988
zvar_avg     =  0.99977

confirmando que \begin{align} \mathbb{E}[\bar{z}]&\approx\overline{(\bar{z})}\approx\mu=0 \\ \mathbb{E}[s^2]&\approx\overline{(s^2)}\approx\sigma^2=1 \\ \mathbb{E}[\widehat{\sigma^2}]&\approx\overline{(\widehat{\sigma^2})}\approx\frac{n-1}{n}\sigma^2=\frac{1}{2} \end{align}


Actualización 2: Nota sobre la naturaleza fundamentalmente "algebraica" de la imparcialidad.

En la demostración numérica anterior, el código se aproxima a la verdadera expectativa $\mathbb{E}[\,]$ utilizando una media de conjunto con $N=10^6$ réplicas del experimento (es decir, cada una es una muestra de tamaño $n=2$ ). Incluso con este gran número, los resultados típicos citados anteriormente están lejos de ser exactos.

Para demostrar numéricamente que los estimadores son realmente sin sesgo, podemos utilizar un un truco sencillo para aproximar el $N\to\infty$ caso: basta con añadir la siguiente línea al código

% optional: "whiten" data (ensure exact ensemble stats)
[U,S,V]=svd(z-mean(z,2),'econ'); z=sqrt(N)*U*V';

(colocar después de "generar números aleatorios normales" y antes de "calcular las estadísticas de la muestra")

Con este sencillo cambio, incluso ejecutando el código con $N=10$ da resultados como

zbar_avg     =  1.1102e-17
zvar_mle_avg =  0.50000
zvar_avg     =  1.00000

15voto

jasonmray Puntos 1303

La desviación estándar de la muestra $S=\sqrt{\frac{\sum (X - \bar{X})^2}{n-1}}$ es completa y suficiente para $\sigma$ por lo que el conjunto de estimadores insesgados de $\sigma^k$ dado por

$$ \frac{(n-1)^\frac{k}{2}}{2^\frac{k}{2}} \cdot \frac{\Gamma\left(\frac{n-1}{2}\right)}{\Gamma\left(\frac{n+k-1}{2}\right)} \cdot S^k = \frac{S^k}{c_k} $$

(Ver ¿Por qué la desviación estándar de la muestra es un estimador sesgado de $\sigma$ ? ) son, por el teorema de Lehmann-Scheffé, UMVUE. Los estimadores consistentes, aunque sesgados, de $\sigma^k$ también puede formarse como

$$ \tilde{\sigma}^k_j= \left(\frac{S^j}{c_j}\right)^\frac{k}{j} $$

(los estimadores insesgados se especifican cuando $j=k$ ). El sesgo de cada uno viene dado por

$$\operatorname{E}\tilde{\sigma}^k_j - \sigma^k =\left( \frac{c_k}{c_j^\frac{k}{j}} -1 \right) \sigma^k$$

y su varianza por

$$\operatorname{Var}\tilde{\sigma}^{k}_j=\operatorname{E}\tilde{\sigma}^{2k}_j - \left(\operatorname{E}\tilde{\sigma}^k_j\right)^2=\frac{c_{2k}-c_k^2}{c_j^\frac{2k}{j}} \sigma^{2k}$$

Para los dos estimadores de $\sigma$ que has considerado, $\tilde{\sigma}^1_1=\frac{S}{c_1}$ & $\tilde{\sigma}^1_2=S$ La falta de sesgo de $\tilde{\sigma}_1$ está más que compensado por su mayor varianza en comparación con $\tilde{\sigma}_2$ :

$$\begin{align} \operatorname{E}\tilde{\sigma}_1 - \sigma &= 0 \\ \operatorname{E}\tilde{\sigma}_2 - \sigma &=(c_1 -1) \sigma \\ \operatorname{Var}\tilde{\sigma}_1 =\operatorname{E}\tilde{\sigma}^{2}_1 - \left(\operatorname{E}\tilde{\sigma}^1_1\right)^2 &=\frac{c_{2}-c_1^2}{c_1^2} \sigma^{2} = \left(\frac{1}{c_1^2}-1\right) \sigma^2 \\ \operatorname{Var}\tilde{\sigma}_2 =\operatorname{E}\tilde{\sigma}^{2}_1 - \left(\operatorname{E}\tilde{\sigma}_2\right)^2 &=\frac{c_{2}-c_1^2}{c_2} \sigma^{2}=(1-c_1^2)\sigma^2 \end{align}$$ (Tenga en cuenta que $c_2=1$ , como $S^2$ es ya un estimador insesgado de $\sigma^2$ .)

Plot showing contributions of bias & variance to MSE at sample sizes from one to 20 for the two estimators

El error cuadrático medio de $a_k S^k$ como un estimador de $\sigma^2$ viene dada por

$$ \begin{align} (\operatorname{E} a_k S^k - \sigma^k)^2 + \operatorname{E} (a_k S^k)^2 - (\operatorname{E} a_k S^k)^2 &= [ (a_k c_k -1)^2 + a_k^2 c_{2k} - a_k^2 c_k^2 ] \sigma^{2k}\\ &= ( a_k^2 c_{2k} -2 a_k c_k + 1 ) \sigma^{2k} \end{align} $$

& por lo tanto, se minimiza cuando

$$a_k = \frac{c_k}{c_{2k}}$$

, lo que permite la definición de otro conjunto de estimadores de interés potencial:

$$ \hat{\sigma}^k_j= \left(\frac{c_j S^j}{c_{2j}}\right)^\frac{k}{j} $$

Curiosamente, $\hat{\sigma}^1_1=c_1S$ por lo que la misma constante que divide $S$ para eliminar el sesgo multiplica $S$ para reducir el MSE. En cualquier caso, estos son los estimadores uniformes de varianza mínima invariante de localización y equivariante de escala de $\sigma^k$ (no quiere que su estimación cambie en absoluto si mide en kelvins en lugar de en grados Celsius, & quiere que cambie por un factor de $\left(\frac{9}{5}\right)^k$ si se mide en Fahrenheit).

Nada de lo anterior tiene que ver con la construcción de pruebas de hipótesis o de intervalos de confianza (véase por ejemplo ¿Por qué este extracto dice que la estimación insesgada de la desviación estándar no suele ser relevante? ). Y $\tilde{\sigma}^k_j$ & $\hat{\sigma}^k_j$ no agotan ni los estimadores ni las escalas de los parámetros de interés potencial: considere el estimador de máxima verosimilitud † $\sqrt{\frac{n-1}{n}}S$ o el estimador insesgado de la mediana $\sqrt{\frac{n-1}{\chi^2_{n-1}(0.5)}}S$ o la desviación estándar geométrica de una distribución lognormal $\mathrm{e}^\sigma$ . Quizá convenga mostrar algunas estimaciones más o menos populares realizadas a partir de una pequeña muestra ( $n=2$ ) junto con los límites superior e inferior, $\sqrt{\frac{(n-1)s^2}{\chi^2_{n-1}(\alpha)}}$ & $\sqrt{\frac{(n-1)s^2}{\chi^2_{n-1}(1-\alpha)}}$ del intervalo de confianza de colas iguales con cobertura $1-\alpha$ :

confidence distribution for $\sigma$ showing estimates

La distancia entre las estimaciones más divergentes es insignificante en comparación con la anchura de cualquier intervalo de confianza que tenga una cobertura decente. (El I.C. del 95%, por ejemplo, es $(0.45s,31.9s)$ .) No tiene sentido ser quisquilloso con las propiedades de un estimador puntual a menos que esté preparado para ser bastante explícito sobre para qué quiere usarlo; lo más explícito es definir una función de pérdida personalizada para una aplicación particular. Una razón por la que podría preferir un estimador exactamente (o casi) insesgado es que va a utilizarlo en cálculos posteriores durante los cuales no quiere que se acumule el sesgo: su ilustración de promediar estimaciones sesgadas de la desviación estándar es un ejemplo sencillo de ello (un ejemplo más complejo podría ser utilizarlas como respuesta en una regresión lineal). En principio, un modelo integral debería obviar la necesidad de estimaciones insesgadas como paso intermedio, pero podría ser considerablemente más difícil de especificar y ajustar.

† El valor de $\sigma$ que hace que los datos observados sean los más probables tiene un atractivo como estimación independiente de la consideración de su distribución muestral.

9voto

Harald Puntos 24

P2: ¿Podría alguien explicarme por qué utilizamos la SD de todos modos, ya que es claramente tendenciosa y engañosa?

Esto surgió como un aparte en los comentarios, pero creo que vale la pena repetirlo porque es el meollo de la respuesta:

La fórmula de la varianza de la muestra es insesgada, y las desviaciones son aditivas . Por lo tanto, si espera realizar alguna transformación (afín), ésta es una razón estadística seria por la que debería insistir en un "buen" estimador de la varianza sobre un "buen" estimador de la DE.

En un mundo ideal, serían equivalentes. Pero eso no es cierto en este universo. Tienes que elegir una, así que más vale que elijas la que te permita combinar la información más adelante.

¿Comparar dos medias muestrales? La varianza de su diferencia es la suma de sus varianzas.
¿Hacer un contraste lineal con varios términos? Obtener su varianza tomando una combinación lineal de sus varianzas.
¿Mirando los ajustes de las líneas de regresión? Obtenga su varianza utilizando la matriz de varianza-covarianza de sus coeficientes beta estimados.
¿Utilizando pruebas F, o pruebas t, o intervalos de confianza basados en t? La prueba F pide directamente las varianzas; y la prueba t es exactamente equivalente a la raíz cuadrada de una prueba F.

En cada uno de estos escenarios comunes, si usted comienza con varianzas insesgadas, permanecerá insesgado todo el tiempo (a menos que su paso final se convierta en SDs para reportar).
Mientras tanto, si hubieras empezado con SDs imparciales, ni tus pasos intermedios ni el resultado final serían imparciales de todos modos .

1voto

Hoogendijk Puntos 45

Este post está en forma de esquema.

(1) Sacar una raíz cuadrada no es una transformación afín (Crédito @Scortchi.)

(2) ${\rm var}(s) = {\rm E} (s^2) - {\rm E}(s)^2$ Por lo tanto ${\rm E}(s) = \sqrt{{\rm E}(s^2) -{\rm var}(s)}\neq{\sqrt{\rm var(s)}}$

(3) $ {\rm var}(s)=\frac{\Sigma_{i=1}^{n}(x_i-\bar{x})^2}{n-1}$ mientras que $\text{E}(s)\,=\,\,\frac{\Gamma\left(\frac{n-1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)}\sqrt{\frac{\Sigma_{i=1}^{n}(x_i-\bar{x})^2}{2}}$$\neq\sqrt{\frac{\Sigma_{i=1}^{n}(x_i-\bar{x})^2}{n-1}}={\sqrt{\rm var(s)}}$

(4) Por lo tanto, no podemos sustituir ${\sqrt{\rm var(s)}}$ para $\text{E}(s)$ , para $n$ pequeño, ya que la raíz cuadrada no es afín.

(5) ${\rm var}(s)$ y $\text{E}(s)$ son imparciales (crédito @GeoMatt22 y @Macro, respectivamente).

(6) Para distribuciones no normales $\bar{x}$ es a veces (a) indefinido (por ejemplo, Cauchy, Pareto con pequeñas $\alpha$ ) y b) no UMVUE (por ejemplo, Cauchy ( $\rightarrow$ Del estudiante $t$ con $df=1$ ), Pareto, Uniforme, beta). Aún más comúnmente, la varianza puede ser indefinida, por ejemplo, la de Student. $t$ con $1\leq df\leq2$ . Entonces se puede afirmar que $\text{var}(s)$ no es UMVUE para la distribución del caso general. Por lo tanto, no hay entonces ninguna carga especial para introducir un corrección aproximada de números pequeños para la desviación estándar, que probablemente tiene limitaciones similares a $\sqrt{\text{var}(s)}$ pero, además, es menos tendencioso, $\hat\sigma = \sqrt{ \frac{1}{n - 1.5 - \tfrac14 \gamma_2} \sum_{i=1}^n (x_i - \bar{x})^2 }$ ,

donde $\gamma_2$ es el exceso de curtosis. De forma similar, al examinar una distribución normal al cuadrado (una Chi-cuadrado con $df=1$ ), podríamos estar tentados de tomar su raíz cuadrada y utilizar las propiedades de la distribución normal resultante. Es decir, en general, la distribución normal puede resultar de transformaciones de otras distribuciones y puede ser conveniente examinar las propiedades de esa distribución normal de manera que la limitación de la corrección de números pequeños al caso normal no sea una restricción tan severa como se podría suponer en un principio.

Para el caso de la distribución normal:

A1: Por Teorema de Lehmann-Scheffe ${\rm var}(s)$ y $\text{E}(s)$ son UMVUE (Crédito @Scortchi).

A2: (Editado para ajustarlo a los comentarios de abajo.) Para $n\leq 25$ deberíamos utilizar $\text{E}(s)$ para la desviación estándar, el error estándar, los intervalos de confianza de la media y de la distribución y, opcionalmente, para las estadísticas z. Para $t$ -prueba no utilizaríamos el estimador insesgado como $\frac{ \bar X - \mu} {\sqrt{\text{var}(n)/n}}$ sí mismo es el de los estudiantes- $t$ distribuido con $n-1$ grados de libertad (Crédito @whuber y @GeoMatt22). Para las estadísticas z, $\sigma$ se suele aproximar mediante $n$ grande para el que $\text{E}(s)-\sqrt{\text{var}(n)}$ es pequeño, pero para el que $\text{E}(s)$ parece ser más apropiado desde el punto de vista matemático (Crédito @whuber y @GeoMatt22).

0voto

andynormancx Puntos 234

Quiero añadir la respuesta bayesiana a esta discusión. El hecho de que tu suposición sea que los datos se generan según alguna normal con media y varianza desconocidas, no significa que debas resumir tus datos utilizando una media y una varianza. Todo este problema puede evitarse si se dibuja el modelo, que tendrá una predicción posterior que es una distribución T de student de tres parámetros de escala no central. Los tres parámetros son el total de las muestras, el total de las muestras al cuadrado y el número de muestras. (O cualquier mapa biyectivo de estos).

Por cierto, me gusta la respuesta de civilstat porque pone de manifiesto nuestro deseo de combinar la información. Las tres estadísticas suficientes anteriores son incluso mejores que las dos dadas en la pregunta (o por la respuesta de civilstat). Se pueden combinar fácilmente dos conjuntos de estas estadísticas, y dan la mejor predicción posterior dado el supuesto de normalidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X