12 votos

Lo de los supuestos de normalidad son necesarios para un unpaired t-test? Y cuando se cumplieron?

Si queremos llevar a cabo una prueba t pareada, el requisito es (si he entendido bien) que la media de la diferencia entre la coincidencia de las unidades de medición serán distribuidos normalmente.

En la prueba t pareada, que se articula (AFAIK) en la exigencia de que la diferencia entre la coincidencia de las unidades de medición serán distribuidos normalmente (incluso si la distribución de cada uno de los dos grupos de comparación no son normales).

Sin embargo, en un unpaired t-test, no se puede hablar de la diferencia entre emparejado unidades, por lo que requieren las observaciones de los dos grupos a lo normal, de modo que la diferencia de la media será normal. Lo que me lleva a mi pregunta:

Es posible que las dos distribuciones no normales, por lo que la diferencia de sus medios SE distribuyen normalmente? (y así, satisfacer a nuestros requisito necesario para la realización de un unpaired t-test - de nuevo - por lo que yo entiendo).

Actualización: (gracias a todos por las respuestas) veo que la regla general que estamos buscando es, de hecho, que la diferencia de los medios va a ser normal, lo que parece ser una buena suposición (bajo suficientemente grande n) debido a la CLT. Esto es increíble para mí (no es sorprendente, increíble), como para cómo funciona esto en la unpaired t-test, pero no funciona tan bien para la prueba de t de muestras. Aquí hay algunas código R para ilustrar:

n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000

# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)

P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    y2 <- runif(n2, 0, 2*mean2)
    MEAN[i] <- mean(y1) - mean(y2)
    P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)



n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)

for(i in seq_len(R))
{
    y1 <- rexp(n1, 1/mean1)
    P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}

par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057  # "wrong" type I error

Gracias.

17voto

bheklilr Puntos 113

En la práctica, el Teorema Central del Límite nos asegura que, en virtud de una amplia gama de hipótesis, las distribuciones de las dos de la muestra significa ser probado mismos enfoque Normal de las distribuciones de los tamaños de muestra grandes, a pesar de todo (aquí es donde los supuestos que vienen en) de las distribuciones de los datos subyacentes. Como una consecuencia, como el tamaño de la muestra se hace más grande, la diferencia de los medios se convierte en una distribución normal, y los requisitos necesarios para la estadística t de un unpaired t-test para tener el nominal t de la distribución de estar satisfechos. Por lo tanto, una más práctica aplicable pregunta podría ser, ¿cómo de grande el tamaño de la muestra tiene que ser antes de que yo pueda ignorar la diferencia entre la distribución real de la estadística y la t de distribución?

En muchos casos, la respuesta es "no muy grande", sobre todo cuando el subyacente distribuciones están bastante cerca simétrica. Por ejemplo, yo simulada de 100.000 pruebas de comparación de medias de dos Uniforme(0,1) distribuciones, cada una con un tamaño de muestra de 10, y, cuando la prueba en el 95% de nivel de confianza, en realidad rechaza la nula 5.19% del tiempo - apenas diferente de la nominal del 5% de la tasa de rechazo estamos esperando (aunque es de aproximadamente 2,7 desviaciones estándar por encima del 5%.)

Esta es la razón por la que la gente utilice la prueba de t en todo tipo de situaciones en las que los supuestos subyacentes en realidad no se cumplen, pero, por supuesto, su kilometraje puede variar, dependiendo de los detalles de su problema. Sin embargo, hay otros estudios que no requieren de la Normalidad, tales como el test de Wilcoxon, que, incluso cuando los datos están distribuidos Normalmente, es decir, asintóticamente, el 95% tan eficaz como la prueba de t (es decir, se requiere un tamaño de muestra de N/0.95 para tener el mismo poder que un t-test con un tamaño de muestra de N, como N tiende a infinito). Cuando los datos no siguen una distribución normal, puede ser (no necesariamente van a ser mucho mejor que el t-test.

2voto

jamesh Puntos 9849

Por supuesto. Si este no fuera el caso, entonces las muestras independientes prueba t no serviría de mucho uso. Realmente necesitamos tamaños de muestras más grandes, porque aunque para nosotros poner a prueba para la diferencia de promedios entre los dos no es normal poblaciones necesitamos apelar a la CLT.

Para un rápido ejemplo vamos a asumir que tenemos de la población 1, proveniente de una exponencial con una media de 25 de población y los 2 están distribuidos de manera uniforme, con una media de 30. Incluso vamos a darles diferentes tamaños de muestra. Podemos examinar lo que la distribución de las diferencias en la muestra de medios se ve como el uso de R relativamente fácilmente utilizando la función replicate.

n1 <- 30
n2 <- 25
mean1 <- 25
mean2 <- 30

diffs <- replicate(10000, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
hist(diffs)

Jugando con el tamaño de la muestra se muestran escasa, los tamaños de muestra realmente no tenemos la normalidad, pero aumentando el tamaño de la muestra nos da una más de apariencia normal distribución de muestreo de la diferencia de medias. Por supuesto, usted puede cambiar las distribuciones que se utilizan en este ejemplo para explorar más a fondo. hist(diff)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X