6 votos

Media media vs recortada en la distribución normal

En un sencillo experimento con la distribución normal en R corrí 500 iteraciones de la simulación de una distribución normal con N=100 cada uno. Para cada iteración de las 500 iteraciones, he calculado la media y la media limitada con un 20% de recorte (de cada lado), lo que resulta en 500 valores para cada uno. Entonces, he comparado los valores de ambos con un boxplot: Boxplot (mean vs trimmed mean)

Parece que la media de los valores son más "precisa". He conseguido reproducir estos resultados en casi todos los intentos, y en el trata de que yo no podía, el boxplot resultó en una similar de la parcela para cada uno.

Esto se siente un poco contra-intuitivo. Yo esperaba para ser al revés, ya que el 20% de recorte va a eliminar los resultados con alta desviación. La única explicación que yo era capaz de pensar de esta observación es que el trim elimina los datos que de lo contrario "equilibrio" de la media, sin embargo, no es una explicación formal.

El amor de algunas ideas sobre esta observación, gracias!

11voto

AdamSane Puntos 1825

Con un poquito de cola de la distribución, puntos alejados son de carácter informativo acerca de la ubicación; con un pesado de cola de la distribución de su inclusión en un promedio puede ser cualquier cosa, desde ineficiente ruinosa.

Así que cuando se utiliza una adecuada tapizados decir con una pesada cola de la distribución, tienden a tener una menor varianza que no se recorte. Por otra parte, cuando se puede hacer con un poquito de cola de la distribución, estás tirando datos valiosos (y por lo que su estimación es más ruidoso, algo así como lo sería si tuviera una muestra más pequeña)

Si usted mira a decir $t_4$ distribución se pueden ver algunos de ganancia de recorte. Si usted mira un uniforme en $(-k,k)$, se puede ver a un costo de recorte (de hecho, sería mejor todavía que el promedio de los tapizados valores en algún pequeño nivel de recorte que el uso de la media).

boxplots of sampling distribution of 0%, 5%, 10%, 15% and 20% trimmed means for t4 and uniform data; the boxplots show initially decreasing spread with trim percentage for the t4 but constantly increasing spread with trim percentage for the uniform

Estas simulaciones fueron para n=100 en cada caso.

11voto

Lev Puntos 2212

Para un exponencial familiar como la distribución Normal, el % promedio de la muestra $\bar{x}$se sabe para alcanzar la cota inferior de Cramér-Rao, que es la mínima variación posible entre todos los estimadores insesgados de la media. Así no sorprende que otro estimador como la media recortada es más variable de $\bar{x}$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X