24 votos

¿Cómo puedo calcular el intervalo de confianza de una media de una muestra no-normal distribuida?

¿Cómo puedo calcular el intervalo de confianza de una media de una muestra no-normal distribuida?

Entiendo los métodos bootstrap se utilizan aquí, pero estoy abierto a otras opciones. Mientras que estoy buscando una opción no paramétrica, si alguien me puede convencer que la solución paramétrica es válida que estaría muy bien. El tamaño de muestra es > 400.

Si alguien podría dar una muestra en R se agradecería mucho.

24voto

ER17 Puntos 1

Primero que todo, me gustaría comprobar si la media es un índice adecuado para la tarea a mano. Si usted está en busca de "un típico/ o valor central" de una distribución sesgada, la media podría apuntar a un lugar de no-valor representativo. Considere la posibilidad de la log-normal de distribución:

x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")

Mean (red), 20% trimmed mean (green), and median (blue) for the log-normal distribution

La media (línea roja) está bastante lejos de la mayor parte de los datos. 20% tapizados media (verde) y la mediana (azul) están más cerca de la "típica" de valor.

Los resultados dependen del tipo de "no-normal" de la distribución (un histograma de los datos reales sería útil). Si no es sesgada, pero ha pesado de cola, su Cei será muy amplia.

En cualquier caso, creo que el "bootstrapping", de hecho, es una buena aproximación, ya que también puede dar asimétrica de la Cei. El R paquete simpleboot es un buen comienzo:

library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))

... te da el siguiente resultado:

# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals : 
Level     Percentile            BCa          
95%   ( 1.062,  1.228 )   ( 1.065,  1.229 )  
Calculations and Intervals on Original Scale

9voto

StasK Puntos 19497

Si usted está abierto a un semi-paramétrico de solución, he aquí uno: Johnson, N. (1978) Modificado Pruebas de t y los Intervalos de Confianza para Asimétrica de las Poblaciones, JASA. El centro del intervalo de confianza es desplazado por $\hat\kappa/(6s^2n)$ donde $\hat\kappa$ es la estimación de la población de la tercera momento, y el ancho se mantiene el mismo. Dado que el ancho del intervalo de confianza es $O(n^{-1/2})$, y la corrección de la media es $O(n^{-1})$, es necesario tener una considerable asimetría (de la orden de $n^{1/2}>20$) para que la materia con $n>400$. El proceso de arranque debe darle una asintóticamente equivalente intervalo, pero también tendría la simulación de ruido añadido a la imagen. (El bootstrap CI corrige para el mismo fin plazo de forma automática, de acuerdo con el general Bootstrap y de Expansión de Edgeworth (Hall 1995) teoría.) Por lo que puedo recordar acerca de la simulación de pruebas, el proceso de arranque de la Cei son algo más grueso que el CIs basado en las expresiones analíticas, aunque.

Tener la analítica, la forma de la media de la corrección podría dar una idea de si la asimetría que realmente necesita para ser tomado en cuenta en la estimación de la media de problema. En cierto modo, esta es una herramienta de diagnóstico de lo mal que está la situación. En el ejemplo de la distribución lognormal dada por Félix, el normalizada de la asimetría de la distribución de la población es $(\exp(1)+2)*\sqrt{ \exp(1) - 1}$, kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877. El ancho de la CI (utilizando la desviación estándar de la distribución de la población, s = sqrt( (exp(1)-1)*exp(1) ) = 2.161197) 2*s*qnorm(0.975)/sqrt(n) = 0.2678999, mientras que la corrección de la media es kappa*s/(6*n) = 0.00222779 (la desviación estándar migrado al numerador desde kappa es la escala libre de la asimetría, mientras que Johnson fórmula aborda sin escala de la población tercer momento central), es decir, sobre la 1/100ª de la anchura de la CI. Debe usted preocuparse? Yo diría que no.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X