28 votos

¿Es significativo probar la normalidad con un tamaño de muestra muy pequeño (por ejemplo, n = 6)?

Tengo un tamaño de muestra de 6. En este caso, ¿tiene sentido probar la normalidad utilizando la prueba de Kolmogorov-Smirnov? Yo utilicé SPSS. Tengo un tamaño de muestra muy pequeño porque lleva tiempo obtener cada uno. Si no tiene sentido, ¿cuál es el número mínimo de muestras que tiene sentido probar?

Nota: Realicé un experimento relacionado con el código fuente. La muestra es el tiempo que se tarda en codificar en una versión del software (versión A). En realidad, tengo otra muestra de tamaño 6 que es el tiempo que se tarda en codificar en otra versión del software (versión B)

Me gustaría realizar una prueba de hipótesis utilizando la prueba t de una muestra para comprobar si el tiempo pasado en la versión de código A difiere del tiempo pasado en la versión de código B o no (Esta es mi H1). La condición previa de la prueba t de una muestra es que los datos a probar deben estar distribuidos de forma normal. Por eso necesito probar la normalidad.

0 votos

0 votos

Realmente me gusta la respuesta de whuber en general (en lo que se refiere a pruebas estadísticas y muestras pequeñas). En este caso, sin embargo, creo que se debería animar al usuario a dar más detalles sobre el contexto. Sin más información, creo que la respuesta de Joris Meyer anterior está justificada.

6 votos

Yo, por mi parte, tengo dificultades para imaginar un contexto en el que n=6 y la normalidad sería una hipótesis que valga la pena probar. Me temo que este es un caso de un usuario inexperto haciendo pruebas de hipótesis múltiples (correr una regresión y luego probar la normalidad de los residuos) y que estamos abordando los síntomas pero ignorando los esqueletos en el armario, por así decirlo.

39voto

jldugger Puntos 7490

Sí.

Todos los tests de hipótesis tienen dos propiedades salientes: su tamaño (o "nivel de significancia"), un número que está directamente relacionado con la confianza y las tasas esperadas de falsos positivos, y su potencia, que expresa la probabilidad de falsos negativos. Cuando los tamaños de muestra son pequeños y continúas insistiendo en un tamaño pequeño (alta confianza), la potencia empeora. Esto significa que los tests de muestra pequeños generalmente no pueden detectar diferencias pequeñas o moderadas. Pero siguen siendo significativos.

El test K-S evalúa si la muestra parece provenir de una distribución Normal. Una muestra de seis valores tendría que ser muy no normal para fallar en este test. Pero si lo hace, puedes interpretar este rechazo de la hipótesis nula exactamente como lo harías con tamaños de muestra más grandes. Por otro lado, si el test no rechaza la hipótesis nula, eso te dice poco, debido a la alta tasa de falsos negativos. En particular, sería relativamente arriesgado actuar como si la distribución subyacente fuera Normal.

Otra cosa a tener en cuenta aquí: algunos softwares utilizan aproximaciones para calcular los valores p de las estadísticas de test. A menudo estas aproximaciones funcionan bien para tamaños de muestra grandes pero son deficientes para tamaños de muestra muy pequeños. Cuando esto ocurre, no puedes confiar en que el valor p haya sido calculado correctamente, lo que significa que no puedes estar seguro de que se haya alcanzado el tamaño de test deseado. Para obtener más detalles, consulta la documentación de tu software.

Algunos consejos: El test KS es sustancialmente menos potente para probar la normalidad que otros tests específicamente construidos para este propósito. El mejor de ellos es probablemente el test de Shapiro-Wilk, pero otros comúnmente utilizados y casi igual de potentes son el test de Shapiro-Francia y el test de Anderson-Darling.

Esta gráfica muestra la distribución de la estadística de test de Kolmogorov-Smirnov en 10,000 muestras de seis variables distribuidas normalmente:

Histograma de la estadística KS

Basado en 100,000 muestras adicionales, el percentil 95 superior (que estima el valor crítico para esta estadística para un test de tamaño $\alpha=5\%$) es 0.520. Un ejemplo de una muestra que aprueba este test es el conjunto de datos

0.000, 0.001, 0.002, 1.000, 1.001, 1000000

La estadística de test es 0.5 (que es menor que el valor crítico). Una muestra de este tipo sería rechazada utilizando los otros tests de normalidad.

10 votos

Creo que cualquier distribución que dé un resultado significativo con N = 6 será tan no normal que pasará la prueba IOTT con colores brillantes, ese es el test de trauma interocular. Te golpea entre los ojos.

2 votos

@Peter Si volvieras a reformular este comentario, estaría correcto. Después de todo, muchas muestras $N=6$ de una distribución normal se verán perfectamente normales, por lo que claramente "cualquier" es un cuantificador demasiado fuerte. Lo que querías decir es que hay una buena posibilidad de que una muestra aleatoria con $N=6$ sea claramente no normal cuando se grafica de una manera razonable (por ejemplo, un gráfico de probabilidad) pero no será rechazada por esta prueba.

0 votos

Solo por diversión, intenté set.seed(3833782) x <- runif(6) ks.test(x, pnorm) Esto fue significativo en p = .04. Por lo que puede suceder

22voto

J Wynia Puntos 4679

Como @whuber preguntó en los comentarios, una validación para mi NO categórico. edición: con la prueba de shapiro, ya que la prueba ks de una muestra se está utilizando incorrectamente. Whuber tiene razón: Para el uso correcto de la prueba de Kolmogorov-Smirnov, tienes que especificar los parámetros de distribución y no extraerlos de los datos. Sin embargo, esto es lo que se hace en paquetes estadísticos como SPSS para una prueba ks de una muestra.

Intentas decir algo sobre la distribución, y quieres comprobar si puedes aplicar una prueba t. Por lo tanto, esta prueba se realiza para confirmar que los datos no se desvían significativamente de la normalidad lo suficiente como para hacer inválidas las suposiciones subyacentes del análisis. Por lo tanto, no estás interesado en el error de tipo I, sino en el error de tipo II.

Ahora hay que definir "significativamente diferente" para poder calcular el n mínimo para una potencia aceptable (digamos 0.8). Con distribuciones, eso no es fácil de definir. Por lo tanto, no respondí a la pregunta, ya que no puedo dar una respuesta sensata aparte de la regla empírica que uso: n > 15 y n < 50. ¿Basado en qué? Básicamente en la intuición, por lo que no puedo defender esa elección aparte de la experiencia.

Pero sé que con solo 6 valores tu error de tipo II está casi en 1, lo que hace que tu potencia sea casi 0. Con 6 observaciones, la prueba de Shapiro no puede distinguir entre una distribución normal, de poisson, uniforme o incluso exponencial. Con un error de tipo II casi en 1, tu resultado de la prueba no tiene sentido.

Para ilustrar la prueba de normalidad con la prueba de shapiro:

shapiro.test(rnorm(6)) # prueba una distribución normal
shapiro.test(rpois(6,4)) # prueba una distribución poisson
shapiro.test(runif(6,1,10)) # prueba una distribución uniforme
shapiro.test(rexp(6,2)) # prueba una distribución exponencial
shapiro.test(rlnorm(6)) # prueba una distribución log-normal

La única en la que cerca de la mitad de los valores son menores que 0.05, es la última. Que también es el caso más extremo.


si quieres averiguar cuál es el n mínimo que te da una potencia que te gusta con la prueba de shapiro, se puede hacer una simulación como esta:

results <- sapply(5:50,function(i){
  p.value <- replicate(100,{
    y <- rexp(i,2)
    shapiro.test(y)$p.value
  })
  pow <- sum(p.value < 0.05)/100
  c(i,pow)
})

que te da un análisis de potencia como este:

enter image description here

de lo cual concluyo que necesitas aproximadamente mínimo 20 valores para distinguir una distribución exponencial de una normal en el 80% de los casos.

código de plot:

plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
    main="Simulación de potencia para distribución exponencial",
    xlab="n",
    ylab="potencia"
)

1 votos

Tienes toda la razón: el poder es una preocupación en pruebas de distribución con un $n$ pequeño. Sin embargo, parece que has puesto la lógica de la prueba de hipótesis de cabeza: las pruebas nunca "confirman" la hipótesis nula; solo pueden rechazarla. Por lo tanto, cualquier persona que busque utilizar una prueba para confirmación estará engañada o decepcionada. Como contrapunto a tus alternativas cuidadosamente elegidas, y para refutar que "el error de tipo II está obligado a ser casi 1", intenta realizar una prueba contra una distribución lognormal(1,2) con $n=6$. (Por cierto, nota que KS no está diseñado para probar distribuciones discretas como la Poisson.)

0 votos

@whuber: Espero que hayas notado que no tuve en cuenta la desviación estándar en mi análisis (por lo tanto, cometí un error cuando la desviación estándar no es 1 en realidad). Con el código actualizado (que sí tiene en cuenta la desviación estándar), el gráfico de potencia para la lognormal (rlnorm()) es el mismo: se necesitan más de 20 valores para una potencia > 0.8.

2 votos

@whuber: respecto a la lógica de la prueba de hipótesis de cabeza: ¿en qué caso estás interesado en la hipótesis alternativa? En todas las aplicaciones de estas pruebas que he visto, las personas están interesadas en la confirmación de la nula: mis datos no difieren significativamente de una distribución normal. Por eso enfatizo el error tipo II.

-2voto

Angelize Puntos 18

La pregunta planteada aquí tiene algunas confusiones acerca de por qué es necesario hacer una verificación de la normalidad para un tamaño de muestra de 6. Aquí, el objetivo principal es "probar si el tiempo invertido en la versión de código A es diferente al tiempo invertido en la versión de código B o no (Esta es mi H1)". Cuando se utiliza la palabra "diferente", ¿es una prueba de una cola?. Sin embargo, la verificación de la normalidad es un segundo paso. El primer paso es verificar la adecuación del poder predeterminado (1-β) de la prueba para un tamaño de muestra dado, cuando el poder es muy malo, ¿cuál es la utilidad de verificar la condición de normalidad?. La verificación de la condición de normalidad nos ayudará a decidir si utilizar una prueba paramétrica o no paramétrica. Si su tamaño de muestra no tiene un poder adecuado, ¿por qué debería considerar la verificación de la normalidad?. Cuando no hay idea acerca de la población de la cual provienen las muestras y el tamaño de la muestra es muy pequeño (<10), siempre son justificables las pruebas no paramétricas.

0 votos

(-1) Esto es muy poco claro. Por favor lee esta página sobre cómo responder preguntas: stats.stackexchange.com/help/how-to-answer

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X