4 votos

Distribución muestral de la media recortada (truncada) de la muestra

Es teoría elemental de la probabilidad que la media muestral de una muestra i.i.d. sigue una distribución normal, si la distribución de fondo es normal. Pero, ¿qué ocurre con la media recortada? ¿Existe algún resultado sobre su distribución para una muestra i.i.d. de tamaño $n$ ? (Para una distribución normal o general de la población).

Mi única idea es utilizar los resultados para la distribución de los estadísticos de orden (sumándolos, teniendo en cuenta su no independencia), pero parece excesivamente complicado, quizá haya una manera más fácil...

1voto

BruceET Puntos 7117

Tiene razón en que la teoría de la distribución es de naturaleza avanzada. Un trabajo importante sobre este tema es el de Stephen M. Stigler, Anales de Estadística, Vol. 1, No. 3 (1973); una versión abierta está aquí . Este otro artículo de Stigler también es relevante .

Sin embargo, en términos generales, si la distribución de la población es normal -o cualquier otra distribución continua unimodal que tenga una media y una varianza y que disminuya monotónicamente hacia su(s) cola(s)-, la media recortada converge a la normalidad a medida que aumenta el tamaño de la muestra. (La condición puede debilitarse, pero cubre la gran mayoría de las distribuciones distribuciones utilizadas en la modelización práctica).

Varias versiones de la media recortada eliminan distintos porcentajes de sus observaciones de ambas colas. Una opción común es la media recortada al 5%, que recorta el 5% de cada cola y promedia el "centro" del 90% de los datos. A medida que el recorte se aproxima al 50% de cada cola, la media recortada se convierte en la mediana.

El grado de recorte puede afectar al ritmo al que la normalidad pero la tendencia es a la normalidad. Existe incluso un "teorema del límite central" para las medianas.

Cuando hay simetría alrededor (población simétrica simétrica y recortando el mismo porcentaje de cada cola) la expectativa de la media recortada es la misma que la media de la población. La varianza depende del porcentaje de recorte, de la forma de distribución de la población y del tamaño de la muestra.

Debido a la confusión de la teoría de la distribución, en la práctica es habitual realizar estudios de simulación para determinar la distribución de la media recortada en una situación concreta.

Por ejemplo, supongamos que la distribución padre es una mezcla de 90% $Norm(100, \sigma = 10)$ y el 10%. $Norm(130, \sigma=50),$ y tenemos una muestra de tamaño $n=20.$

La terminología habitual es que la población con media 100 ha sido "contaminada" en un 10% por observaciones con una media y una desviación típica mayores. El 10% es un nivel de contaminación bastante alto. La distribución contaminada dista mucho de ser normal, con colas muy gruesas y asimetría derecha. con colas muy gruesas y asimetría derecha.

Una simple simulación con 100.000 muestras de tamaño 20 muestra que $E(\bar X) = 103$ y $SD(\bar X) = 18.7$ para los datos originales. Para los datos recortados (denotados por $Y$ ) tenemos $E(\bar Y) = 101.6$ y $SD(\bar Y) = 11.3.$ Histogramas de ambos $\bar X$ y $\bar Y$ son "casi" normales, incluso con el relativamente pequeño tamaño de la muestra $n = 20$ pero ambos están ligeramente sesgados a la derecha.

El recorte tiende a poner $\bar Y$ más cerca de la media 100 de la población "principal" que en el caso del media sin recortar. Del mismo modo, el recorte ha eliminado parte pero no toda la desviación estándar "excesiva" debida a la contaminación. Vemos que el recorte del 5% ha mitigado en parte los efectos de la contaminación grave, pero no del todo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X