Processing math: 100%

2 votos

Shapiro-Wilk dice que los datos no son normales, pero el histograma se ve así

Estoy utilizando R. Tengo dos conjuntos de datos. El primero se genera con rnorm() La segunda se crea manualmente.

El histograma del primer conjunto está aquí

enter image description here

y Shapiro-Wilk ( shapiro.test() ) arroja un valor p de 0,189, que es el esperado.

> shapiro.test(d)

    Shapiro-Wilk normality test

data:  d
W = 0.96785, p-value = 0.189

El segundo conjunto de datos son los residuos de la función de ajuste de la regresión lineal (obtenidos por lm() ) y su histograma está aquí:

enter image description here

Yo esperaría que se detectara una distribución normal o, al menos, bastante cercana a ella. Pero Shapiro-Wilk da un valor p de 4,725e-05, que niega rotundamente la posibilidad de que sea una distribución normal.

> shapiro.test(fit$residuals)

    Shapiro-Wilk normality test

data:  fit$residuals
W = 0.70681, p-value = 4.725e-05

¿Sabes por qué se comporta así?


Datos 1 (d)

-0.07205526
-0.645539
-2.025838
0.2518213
1.293012
-1.236223
-0.4183682
1.208981
-0.1084781
-0.7542519
-0.902902
0.1428906
-0.5124051
-1.959943
-1.272916
-1.706359
1.288966
0.7631183
-2.163717
-0.2049349
-0.7565308
1.12756
0.5250697
1.002177
0.6505888
0.7055426
1.143954
-0.02660517
-1.539839
-1.02968
-0.1616118
0.3548749
0.1531889
0.1214934
0.6672141
0.8862341
-0.2431952
-0.7877379
0.3775137
-0.8941234
1.003717
-0.07051517
-0.009962349
-1.501927
-0.1547865
-1.209728
0.3160188
-0.694145
0.3009792
0.07562172

Datos 2 (fit$residuals)

-0.01270401
-0.01266431
-0.01109333
-0.009522339
-0.007951352
-0.006380364
0.09519062
-0.003238389
-0.001667402
-9.641439e-05
0.001474573
0.003045561
0.004616548
0.006187535
0.007758523
-0.09067049
0.0109005
0.01247149
-0.001270401
0.01561346

EDITAR

He añadido un caso adicional con sólo 10 observaciones generadas por rnorm() también.

Los datos no parecen tener una distribución muy normal a primera vista, pero Shapiro-Wilk dice lo contrario.

enter image description here

> shapiro.test(dd)

    Shapiro-Wilk normality test

data:  dd
W = 0.93428, p-value = 0.4912

Datos 3 (dd)

-0.5272838
-0.03053323
0.009022335
0.8179343
0.8927589
0.3694592
-0.7372785
0.8209204
0.1088729

8voto

Nick Cox Puntos 22819

El segundo conjunto de datos tiene dos claros valores atípicos, uno alto y otro bajo. Así que el resultado de la prueba parece perfectamente plausible.

En este caso, un gráfico de cuantiles normales pone de manifiesto la cuestión.

enter image description here

En esta pregunta, y normalmente,

  1. Preocuparse por el resultado de la prueba de Shapiro-Wilk es mucho menos importante que preocuparse por si la regresión tiene sentido. Si es posible, debería mostrarnos los datos y los resultados de la regresión. Tal vez la regresión es lo mejor que puedes hacer y un valor atípico a cada lado es sólo la forma en que sus datos son. Los residuos con distribución normal son sólo una condición ideal, mientras que la vida es imperfecta. O tal vez se necesite una regresión diferente. No podemos saberlo sin más información.

  2. Un histograma puede ser un medio bastante pobre para juzgar la normalidad o la no normalidad. Es mejor que no mirar los datos en absoluto, pero el gráfico de cuantiles normales (también conocido como gráfico de probabilidad normal) está adaptado a ese propósito. Los valores atípicos no están ocultos en su histograma (se muestran en los intervalos extremos), pero es mucho más difícil para verlos como valores atípicos en el histograma.

Lo que también puedes hacer es

  • Vuelve a los datos y comprueba qué puntos son atípicos. ¿Tienen sentido esos puntos teniendo en cuenta otras variables y lo que sabes?

  • Considere algún otro tipo de regresión (por ejemplo, la regresión cuantílica) para comprobar los resultados.

4voto

EJ Mak Puntos 145

Observar un valor p no significativo para cualquier prueba no apoya la hipótesis nula. En este caso, un SW no significativo no muestra la normalidad, sólo significa que la muestra no tiene suficiente información para sugerir una mayor incompatibilidad con la normalidad, que puede deberse al tamaño de la muestra o simplemente a la distribución real (o algún tipo de sesgo).

Confiar demasiado en las pruebas formales de normalidad puede llevarle por mal camino, ya que suelen ser muy potentes para detectar la más mínima variación de la normalidad que puede tener una importancia práctica nula.

También estoy en desacuerdo con que una prueba significativa "se enfrente" a la normalidad; en un marco estándar se podría concluir que los datos no proceden de una distribución normal subyacente, pero observar los datos en un q-q y en un histograma es más revelador en cuanto a la forma de la distribución empírica: eso es lo que se está utilizando como sustituto de la distribución subyacente, que es desconocida.

El uso de la experiencia en la materia es a menudo útil en la estadística, y este es uno de los casos en los que seguir ciegamente un valor p es probable que le lleve por el mal camino.

1voto

Rufinus Puntos 8148

Creo que este comportamiento puede surgir porque tu serie de residuos tiene sólo 20 observaciones mientras que el primer conjunto de datos generado con rnorm() tiene 50 observaciones. Si genera su conjunto de datos aleatorios con sólo 10 observaciones será más fácil que el resultado de la prueba sea significativo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X