24 votos

Pruebas de normalidad apropiadas para muestras pequeñas

Hasta ahora, he estado utilizando la estadística de Shapiro-Wilk para probar suposiciones de normalidad en muestras pequeñas.

¿Podría recomendarme otra técnica, por favor?

1 votos

Aquí hay un par de otras preguntas de posible interés: ¿es-la-prueba-de-normalidad-encialmente-inútil, para una discusión sobre el valor de la prueba de normalidad, y ¿qué-si-los-residuos-están-distribuidos-normalmente-pero-y-no-lo-está, para una discusión/aclaración del sentido en el que la normalidad es un supuesto de un modelo lineal.

3 votos

El Wilk en Shapiro-Wilk se refiere a Martin B. Wilk. Es demasiado fácil escribir "Wilks" especialmente (a) si alguien más lo dijo o escribió y estás copiando (b) si conoces el trabajo en estadística de Samuel S. Wilks, una persona bastante diferente (c) si te confundes acerca de la "s" terminal en inglés, dadas sus otros usos para plurales (estadísticas, gatos, perros, ...) y posesivos ('s), lo cual es común incluso entre aquellos cuyo primer idioma es el inglés. He editado este hilo en la medida de lo posible; no puedo modificar comentarios.

26voto

Jon Galloway Puntos 28243

El paquete fBasics en R (parte de Rmetrics) incluye varias pruebas de normalidad, que abarcan muchas de las pruebas frecuentistas populares -- Kolmogorov-Smirnov, Shapiro-Wilk, Jarque–Bera, y D'Agostino -- junto con un envoltorio para las pruebas de normalidad en el paquete nortest -- Anderson–Darling, Cramer–von Mises, Lilliefors (Kolmogorov-Smirnov), chi–cuadrado de Pearson, y Shapiro–Francia. La documentación del paquete también proporciona todas las referencias importantes. Aquí hay una demostración que muestra cómo usar las pruebas de nortest.

Un enfoque, si tienes tiempo, es utilizar más de una prueba y verificar el acuerdo. Las pruebas varían de varias formas, por lo que no es totalmente sencillo elegir "la mejor". ¿Qué utilizan otros investigadores en tu campo? Esto puede variar y puede ser mejor seguir los métodos aceptados para que otros acepten tu trabajo. Frecuentemente utilizo la prueba de Jarque-Bera, en parte por esa razón, y Anderson–Darling para comparación.

Puedes consultar "Comparación de pruebas para la normalidad univariable" (Seier 2002) y "Una comparación de varias pruebas de normalidad" (Yazici; Yolacan 2007) para una comparación y discusión de los problemas.

También es trivial probar estos métodos para comparación en R, gracias a todas las funciones de distribución. Aquí hay un ejemplo simple con datos simulados (no imprimiré los resultados para ahorrar espacio), aunque se requeriría una exposición más detallada:

library(fBasics); library(ggplot2)
set.seed(1)
# distribución normal
x1 <- rnorm(1e+06)   
x1.samp <- sample(x1, 200)
qplot(x1.samp, geom="histogram")
jbTest(x1.samp)
adTest(x1.samp)

# distribución de Cauchy
x2 <- rcauchy(1e+06)
x2.samp <- sample(x2, 200)
qplot(x2.samp, geom="histogram")
jbTest(x2.samp)
adTest(x2.samp)

Una vez que tengas los resultados de las diversas pruebas sobre diferentes distribuciones, puedes comparar cuáles fueron las más efectivas. Por ejemplo, el valor p para la prueba de Jarque-Bera arriba devolvió 0.276 para la distribución normal (aceptando) y < 2.2e-16 para la distribución Cauchy (rechazando la hipótesis nula).

0 votos

Gracias Shane, ¡gran respuesta! Bueno, "los demás" en mi campo a menudo usan SPSS, así que utilizan Kolmogorov-Smirnov (si es que verifican la normalidad en absoluto), aunque en mi humilde opinión, la prueba de Lilliefors es una mejor opción cuando los datos se recopilan de una muestra (cuando los parámetros son desconocidos). Me enseñaron que Shapiro-Wilk es apropiado para muestras pequeñas, y solo quería obtener más información sobre "pruebas de normalidad para muestras pequeñas"... Por cierto, ¡yo uso nortest en R! =)

17voto

AdamSane Puntos 1825

Para la normalidad, el actual Shapiro-Wilk tiene buena potencia en muestras bastante pequeñas.

El principal competidor en estudios que he visto es el más general Anderson-Darling, que se desempeña bastante bien, pero no diría que es mejor. Si puede aclarar qué alternativas le interesan, posiblemente una estadística mejor sería más obvia. [edición: si estima parámetros, la prueba A-D debe ajustarse para eso.]

[Recomiendo firmemente no considerar Jarque-Bera en muestras pequeñas (que probablemente sea más conocido como Bowman-Shenton en círculos estadísticos - estudiaron la distribución de muestras pequeñas). La distribución conjunta asintótica de sesgo y curtosis no se parece en nada a la distribución de muestra pequeña - de la misma manera que un plátano no se parece mucho a una naranja. También tiene muy poca potencia contra algunas alternativas interesantes - por ejemplo, tiene poca potencia para detectar una distribución bimodal simétrica que tiene una curtosis cercana a la de una distribución normal.]

Frecuentemente la gente prueba bondad de ajuste por razones que resultan no ser particularmente buenas, o están respondiendo a una pregunta diferente a la que realmente quieren responder.

Por ejemplo, casi con seguridad ya sabe que sus datos no son realmente normales (no exactamente), por lo que no tiene sentido intentar responder a una pregunta cuya respuesta ya conoce - y la prueba de hipótesis de todos modos no la responde.

Dado que ya sabe que no tiene normalidad exacta, su prueba de hipótesis de normalidad realmente le está dando una respuesta a una pregunta más cercana a "¿es mi tamaño de muestra lo suficientemente grande como para detectar la cantidad de no normalidad que tengo", mientras que la verdadera pregunta que está interesado en responder suele ser más cercana a "¿cuál es el impacto de esta no normalidad en estas otras cosas en las que estoy interesado?". La prueba de hipótesis está midiendo el tamaño de muestra, mientras que la pregunta que le interesa responder no depende mucho del tamaño de muestra.

Hay momentos en los que probar la normalidad tiene sentido, pero esas situaciones casi nunca ocurren con muestras pequeñas.

¿Por qué está usted probando la normalidad?

0 votos

Gracias por una gran respuesta y una gran pregunta posterior. Es crucial obtener una visión sobre el trasfondo del problema. Bueno, muchas veces he visto a personas haciendo t-test, r de Pearson o ANOVA sin tener idea sobre la forma de la distribución (que suele ser muy sesgada) - las técnicas paramétricas "necesitan" que se cumpla la suposición de normalidad. En psicología (que es mi campo de interés), a menudo lidiamos con muestras pequeñas, por lo tanto necesito una prueba de normalidad adecuada.

6 votos

Pero la normalidad nunca está satisfecha. A veces es una descripción razonable de los datos, pero en realidad no son normales. Si bien tiene sentido verificar la no normalidad cuando se asume, no es particularmente útil probarlo (por las razones que describí anteriormente). Por ejemplo, hago un gráfico qq, pero una prueba de hipótesis responde a la pregunta incorrecta en esta situación. Las pruebas t y anova suelen funcionar razonablemente bien si las distribuciones no están muy sesgadas. Un enfoque mejor podría ser utilizar procedimientos que no asumen normalidad, quizás técnicas de remuestreo.

0 votos

O bien puedes usar pruebas no paramétricas, a costa de tener menos poder. Y nada está absolutamente satisfecho en estadística, no es únicamente un problema de normalidad. Sin embargo, el bootstrapping o jackknifing no son una solución al introducir a alguien en las suposiciones de la prueba t y/o ANOVA. Dudo que las técnicas de remuestreo resuelvan los problemas de normalidad en absoluto. Uno debería verificar la normalidad tanto gráficamente (gráfico de densidad, diagrama de caja, gráfico QQ, histograma) como "numéricamente" (pruebas de normalidad, asimetría, curtosis, etc.). ¿Qué sugieres? Esto es completamente fuera de tema, pero ¿cómo verificarías, digamos, las suposiciones de normalidad de ANOVA?

15voto

Senseful Puntos 116

¡Hay toda una categoría de Wikipedia sobre pruebas de normalidad que incluye:

Creo que A-D probablemente es la mejor de ellas.

2 votos

Estoy de acuerdo. Realicé una prueba rápida del test A-D, Jarque-Bera y el test de Spiegelhalter (1983), bajo la hipótesis nula, con un tamaño de muestra de 8, repitiendo 10,000 veces. El test A-D mantiene la tasa de rechazo nominal y ofrece pvalores uniformes, mientras que el test J-B es terrible y el de Spiegelhalter es regular.

1 votos

@shabbychef La prueba de Jarque-Bera se basa en la normalidad asintótica de la asimetría y la curtosis de la muestra, lo cual no funciona bien incluso para n en los bajos 100s. Pero para obtener la tasa de rechazo deseada, puedes ajustar los valores críticos basados en resultados de simulación, como en la Sección 4.1 de Thadewald, T, y H. Buning, 2004, Prueba de Jarque-Bera y sus competidores para probar normalidad - Una comparación de poder, Discussion Paper Economics 2004/9, School of Business and Economics, Free University of Berlin.

6voto

Jay Puntos 395

Para mayor completitud, los econometristas también suelen usar la prueba de Kiefer y Salmon de su artículo de 1983 en Economics Letters - que resume expresiones 'normalizadas' de asimetría y curtosis que luego se distribuyen chi-cuadrado. Tengo una versión antigua en C++ que escribí durante la escuela de posgrado que podría traducir a R.

Editar: Y aquí hay un artículo reciente de Bierens que vuelve a derivar Jarque-Bera y Kiefer-Salmon.

Editar 2: Revisé el código antiguo y parece que realmente es la misma prueba entre Jarque-Bera y Kiefer-Salmon.

3voto

grieve Puntos 692

De hecho, la prueba Kiefer Salmon y la prueba Jarque Bera son críticamente diferentes como se muestra en varios lugares, pero más recientemente aquí - Pruebas Momento para Distribuciones de Errores Estandarizadas: Un Enfoque Robusto Simple por Yi-Ting Chen. La prueba Kiefer Salmon, por su construcción, es robusta ante estructuras de errores de tipo ARCH a diferencia de la prueba Jarque Bera estándar. El documento de Yi-Ting Chen desarrolla y discute lo que creo que probablemente sean las mejores pruebas en este momento.

4 votos

Chen parece centrarse en conjuntos de datos más grandes, lo cual tiene sentido porque los cuartos y sextos momentos y momentos superiores involucrados en estas pruebas tardarán un tiempo en estabilizarse a niveles asintóticos. Pero las pruebas de distribución se suelen utilizar para conjuntos de datos con menos de 250 valores (el mínimo estudiado en este artículo). De hecho, la mayoría de ellas se vuelven tan poderosas con grandes cantidades de datos que son poco más que reflexiones tardías en tales aplicaciones. ¿O hay algo más que estoy pasando por alto?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X