Si queremos llevar a cabo una prueba t pareada, el requisito es (si he entendido bien) que la media de la diferencia entre la coincidencia de las unidades de medición serán distribuidos normalmente.
En la prueba t pareada, que se articula (AFAIK) en la exigencia de que la diferencia entre la coincidencia de las unidades de medición serán distribuidos normalmente (incluso si la distribución de cada uno de los dos grupos de comparación no son normales).
Sin embargo, en un unpaired t-test, no se puede hablar de la diferencia entre emparejado unidades, por lo que requieren las observaciones de los dos grupos a lo normal, de modo que la diferencia de la media será normal. Lo que me lleva a mi pregunta:
Es posible que las dos distribuciones no normales, por lo que la diferencia de sus medios SE distribuyen normalmente? (y así, satisfacer a nuestros requisito necesario para la realización de un unpaired t-test - de nuevo - por lo que yo entiendo).
Actualización: (gracias a todos por las respuestas) veo que la regla general que estamos buscando es, de hecho, que la diferencia de los medios va a ser normal, lo que parece ser una buena suposición (bajo suficientemente grande n) debido a la CLT. Esto es increíble para mí (no es sorprendente, increíble), como para cómo funciona esto en la unpaired t-test, pero no funciona tan bien para la prueba de t de muestras. Aquí hay algunas código R para ilustrar:
n1 <- 10
n2 <- 10
mean1 <- 50
mean2 <- 50
R <- 10000
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
# hist(diffs)
P <- numeric(R)
MEAN <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
y2 <- runif(n2, 0, 2*mean2)
MEAN[i] <- mean(y1) - mean(y2)
P[i] <- t.test(y1,y2)$p.value
}
# diffs <- replicate(R, mean(rexp(n1, 1/mean1)) - mean(runif(n2, 0, 2*mean2)))
par(mfrow = c(1,2))
hist(P)
qqplot(P, runif(R)); abline(0,1)
sum(P<.05) / R # for n1=n2=10 -> 0.0715 # wrong type I error, but only for small n1 and n2 (for larger ones, this effect disappears)
n1 <- 100
mean1 <- 50
R <- 10000
P_y1 <- numeric(R)
for(i in seq_len(R))
{
y1 <- rexp(n1, 1/mean1)
P_y1[i] <- t.test(y1 , mu = mean1)$p.value
}
par(mfrow = c(1,2))
hist(P_y1)
qqplot(P_y1, runif(R)); abline(0,1)
sum(P_y1<.05) / R # for n1=n2=10 -> 0.057 # "wrong" type I error
Gracias.