He leído que el t -test es "razonablemente robusto" cuando las distribuciones de las muestras se apartan de la normalidad. Por supuesto, lo importante es la distribución muestral de las diferencias. Tengo datos de dos grupos. Uno de los grupos está muy sesgado en la variable dependiente. El tamaño de la muestra es bastante pequeño para ambos grupos (n=33 en uno y 45 en el otro). ¿Debo suponer que, en estas condiciones, mi t -¿La prueba será robusta a las violaciones del supuesto de normalidad?
Respuestas
¿Demasiados anuncios?Las preguntas sobre la robustez son muy difíciles de responder bien, porque los supuestos pueden incumplirse de muchas maneras, y en cada una de ellas en grados diferentes. El trabajo de simulación sólo puede muestrear una parte muy pequeña de las posibles violaciones.
Dado el estado de la informática, creo que a menudo merece la pena correr ambos una prueba paramétrica y otra no paramétrica, si se dispone de ambas. A continuación, puede comparar los resultados.
Si es realmente ambicioso, podría incluso hacer una prueba de permutación.
¿Y si Alan Turing hubiera hecho su trabajo antes de que Ronald Fisher hiciera el suyo? :-).
@PeterFlom ha dado en el clavo con su primera frase.
Intentaré hacer un resumen aproximado de los estudios que he visto (si queréis enlaces puede tardar un poco):
En general, la prueba t de dos muestras es razonablemente resistente a la no normalidad simétrica (la tasa de error de tipo I real se ve afectada en cierta medida por la curtosis, la potencia se ve afectada principalmente por eso).
Cuando las dos muestras están ligeramente sesgadas en la misma dirección, la prueba t de una cola deja de ser insesgada. El estadístico t está sesgado de forma opuesta a la distribución y tiene mucha más potencia si la prueba está en una dirección que si está en la otra. Si están sesgadas en direcciones opuestas, la tasa de error de tipo I puede verse muy afectada.
Una asimetría fuerte puede tener un impacto mayor, pero en general, una asimetría moderada con un de dos colas no está tan mal si no te importa que tu prueba, en esencia, asigne más potencia a una dirección que a otra.
En resumen: la prueba t de dos colas y dos muestras es razonablemente robusta frente a este tipo de cosas si se puede tolerar cierto impacto en el nivel de significación y un ligero sesgo.
Sin embargo, hay muchas, muchas, formas de que las distribuciones no sean normales, que no están cubiertas por esos comentarios.
@PeterFlom ya ha mencionado que los estudios de simulación nunca pueden abarcar todos los escenarios y posibilidades y, por tanto, no pueden conducir a una respuesta definitiva. Sin embargo, me sigue pareciendo útil explorar una cuestión como ésta realizando algunas simulaciones (también resulta ser exactamente el tipo de ejercicio que me gusta utilizar cuando presento la idea de los estudios de simulación Monte Carlo a los estudiantes). Así que vamos a probarlo. Voy a utilizar R para esto.
El Código
n1 <- 33
n2 <- 45
mu1 <- 0
mu2 <- 0
sd1 <- 1
sd2 <- 1
iters <- 100000
p1 <- p2 <- p3 <- p4 <- p5 <- rep(NA, iters)
for (i in 1:iters) {
### normal distributions
x1 <- rnorm(n1, mu1, sd1)
x2 <- rnorm(n2, mu2, sd2)
p1[i] <- t.test(x1, x2)$p.value
### both variables skewed to the right
x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p2[i] <- t.test(x1, x2)$p.value
### both variables skewed to the left
x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p3[i] <- t.test(x1, x2)$p.value
### first skewed to the left, second skewed to the right
x1 <- -1 * (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p4[i] <- t.test(x1, x2)$p.value
### first skewed to the right, second skewed to the left
x1 <- (rchisq(n1, df=1) - 1)/sqrt(2) * sd1 + mu1
x2 <- -1 * (rchisq(n2, df=1) - 1)/sqrt(2) * sd2 + mu2
p5[i] <- t.test(x1, x2)$p.value
}
print(round((apply(cbind(p1, p2, p3, p4, p5), 2, function(p) mean(p <= .05))), 3))
Explicación
-
Primero fijamos el tamaño del grupo (
n1
yn2
), las verdaderas medias de grupo (mu1
ymu2
), y las desviaciones típicas verdaderas (sd1
ysd2
). -
A continuación definimos el número de iteraciones a ejecutar y configuramos vectores en los que almacenar los valores p.
-
A continuación, simulo los datos en 5 escenarios:
- Ambas distribuciones son normales.
- Ambas distribuciones están sesgadas a la derecha.
- Ambas distribuciones están sesgadas a la izquierda.
- La primera distribución está sesgada a la izquierda, la segunda a la derecha.
- La primera distribución está sesgada a la derecha, la segunda a la izquierda.
Tenga en cuenta que estoy utilizando distribuciones chi-cuadrado para generar las distribuciones sesgadas. Con un grado de libertad, son distribuciones muy sesgadas. Dado que la verdadera media y varianza de una distribución chi-cuadrado con un grado de libertad es igual a 1 y 2, respectivamente ( ver wikipedia ), reescalo esas distribuciones para que primero tengan media 0 y desviación típica 1 y luego las reescalo para que tengan la media y la desviación típica verdaderas deseadas (esto podría hacerse en un solo paso, pero hacerlo de esta manera puede ser más claro).
-
En cada caso, aplico la prueba t (versión de Welch; por supuesto, también se podría considerar la versión de Student, que asume varianzas iguales en los dos grupos) y guardo el valor p en los vectores establecidos anteriormente.
-
Por último, una vez completadas todas las iteraciones, calculo para cada vector con qué frecuencia el valor p es igual o inferior a 0,05 (es decir, la prueba es "significativa"). Esta es la tasa de rechazo empírica.
Algunos resultados
-
Simulando exactamente como se ha descrito anteriormente se obtiene:
p1 p2 p3 p4 p5 0.049 0.048 0.047 0.070 0.070
Así, cuando la asimetría está en la misma dirección en ambos grupos, la tasa de error de tipo I parece estar bastante cerca de estar bien controlada (es decir, está bastante cerca de la nominal $\alpha = .05$ ). Cuando la asimetría está en direcciones opuestas, hay una ligera inflación en la tasa de error de tipo I.
-
Si cambiamos el código a
mu1 <- .5
, entonces obtenemos:p1 p2 p3 p4 p5 0.574 0.610 0.606 0.592 0.602
Por lo tanto, en comparación con el caso en que ambas distribuciones son normales (como se supone en la prueba), la potencia parece ser ligeramente superior a la normal. superior cuando la asimetría está en la misma dirección. Si esto le sorprende, puede repetirlo varias veces (por supuesto, cada vez obtendrá resultados ligeramente diferentes), pero el patrón se mantendrá.
Tenga en cuenta que hay que tener cuidado con la interpretación de los valores empíricos de potencia en los dos escenarios en los que la asimetría está en direcciones opuestas, ya que la tasa de error de tipo I no es del todo nominal (como caso extremo, suponga que siempre rechazo independientemente de lo que muestren los datos; entonces siempre tendré una prueba con la máxima potencia, pero por supuesto la prueba también tiene una tasa de error de tipo I bastante inflada).
Se podría empezar a explorar una gama de valores para mu1
(et mu2
-- pero lo que realmente importa es la diferencia entre los dos) y, lo que es más importante, empezar a cambiar las verdaderas desviaciones típicas de los dos grupos (es decir, sd1
y sd2
) y sobre todo hacerlos desiguales. También me ceñí a los tamaños de muestra mencionados por el OP, pero por supuesto eso también podría ajustarse. Y la asimetría podría, por supuesto, tomar muchas otras formas que las que vemos en una distribución chi-cuadrado con un grado de libertad. Sigo pensando que enfocar las cosas de este modo es útil, a pesar de que no pueda dar una respuesta definitiva.
En su situación, es probable que la prueba t sea robusta en cuanto a la tasa de error de tipo I, pero no en cuanto a la tasa de error de tipo II. Probablemente conseguiría más potencia mediante a) una prueba de Kruskal-Wallis, o b) una transformación normalizadora antes de una prueba t.
Baso esta conclusión en dos estudios de Monte Carlo. En el primero ( Khan y Rayner, 2003 ), la asimetría y la curtosis se manipularon indirectamente mediante los parámetros de la familia de distribuciones g y k, y se examinó la potencia resultante. Es importante señalar que la potencia de la prueba de Kruskal- Wallis resultó menos dañada por la no normalidad, en particular para n>=15.
Algunas advertencias/cualificaciones sobre este estudio: La curtosis alta afectaba a menudo a la potencia, pero no tanto la asimetría. A primera vista, este patrón podría parecer menos relevante para tu situación, dado que has observado un problema con la asimetría, no con la curtosis. Sin embargo, apuesto a que el exceso de curtosis también es extremo en su caso. Tenga en cuenta que el exceso de curtosis será al menos tan alto como skew^2 - 2. (Sea el exceso de curtosis igual al 4º momento normalizado menos 3, de modo que el exceso de curtosis=0 para una distribución normal). Observe también que Khan y Rayner (2003) examinaron ANOVAs con 3 grupos, pero es probable que sus resultados se generalicen a una prueba t de dos muestras.
Un segundo estudio pertinente ( Beasley, Erikson y Allison, 2009 ) examinó los errores de tipo I y de tipo II con diversas distribuciones no normales, como Chi-cuadrado(1) y Weibull(1,,5). Para tamaños de muestra de al menos 25, la prueba t controló adecuadamente la tasa de error de tipo I en o por debajo del nivel alfa nominal. Sin embargo, la potencia fue mayor con una prueba de Kruskal-Wallis o con una transformación normal inversa basada en el rango (puntuaciones de Blom) aplicada antes de la prueba t. En general, Beasley y sus colegas argumentaron en contra del enfoque de normalización, pero cabe señalar que el enfoque de normalización controlaba la tasa de error de tipo I para n>=25, y su potencia a veces superaba ligeramente la de la prueba de Kruskal-Wallis. Es decir, el enfoque de normalización parece prometedor para su situación. Para más detalles, véanse las tablas 1 y 4 de su artículo.
Referencias:
Khan, A., & Rayner, G. D. (2003) . Robustez a la no normalidad de las pruebas comunes para el problema de localización de muchas muestras . Revista de Matemáticas Aplicadas y Ciencias de la Decisión, 7 , 187-206.
Beasley, T. M., Erickson, S., & Allison, D. B. (2009) . Las transformaciones normales inversas basadas en el rango se utilizan cada vez más, pero ¿están justificadas? Genética del comportamiento, 39 , 580-595.
En primer lugar, si supone que la distribución de las dos muestras es diferente, asegúrese de que está utilizando la versión de Welch de la prueba t, que supone varianzas desiguales entre los grupos. Esto intentará al menos tener en cuenta algunas de las diferencias que se producen debido a la distribución.
Si nos fijamos en la fórmula de la prueba t de Welch:
$$ t = {\overline{X}_1 - \overline{X}_2 \over s_{\overline{X}_1 - \overline{X}_2}} $$
donde $s_{\overline{X}_1 - \overline{X}_2}$ es
$$ s_{\overline{X}_1 - \overline{X}_2} = \sqrt{{s_1^2 \over n_1} + {s_2^2 \over n_2}} $$
podemos ver que cada vez que hay un s sabemos que se tiene en cuenta la varianza. Imaginemos que las dos varianzas son en realidad iguales, pero una de ellas está sesgada, lo que da lugar a una estimación de la varianza diferente. Si esta estimación de la varianza no es realmente representativa de sus datos debido a la asimetría, entonces el efecto de sesgo real será esencialmente la raíz cuadrada de ese sesgo dividida por el número de puntos de datos utilizados para calcularlo. Por lo tanto, el efecto de los malos estimadores de la varianza se amortigua un poco por la raíz cuadrada y un n más alto, y es probablemente por eso que el consenso es que sigue siendo una prueba robusta.
El otro problema de las distribuciones sesgadas es que el cálculo de la media también se verá afectado, y aquí es donde probablemente estén los verdaderos problemas de violación de los supuestos de la prueba, ya que las medias son relativamente sensibles a la sesgo. Y la robustez de la prueba puede determinarse aproximadamente calculando la diferencia de medias, comparada con la diferencia de medianas (como idea). Tal vez incluso podría intentar sustituir la diferencia de medias por la diferencia de medianas en la prueba t como una medida más robusta (estoy seguro de que alguien ha discutido esto, pero no pude encontrar algo en google lo suficientemente rápido como para enlazarlo).
También sugeriría realizar una prueba de permutación si todo lo que está haciendo es una prueba t. La prueba de permutación es una prueba exacta, independiente de los supuestos de distribución. Y lo que es más importante, la las pruebas de permutación y la prueba t conducirán a resultados idénticos si se cumplen los supuestos de la prueba paramétrica . Por lo tanto, la medida de robustez que busca puede ser 1 - la diferencia entre los valores p de permutación y de prueba t, donde una puntuación de 1 implica una robustez perfecta y 0 implica nada de robustez.