2 votos

Prueba KS - R, Minitab (y Systat)

Estoy intentando averiguar cómo se realiza la prueba de normalidad de una muestra de Kolmogorov-Smirnov en Minitab (o Systat, ya que las respuestas parecen coincidir).

Si este es mi vector de datos:

abc <- c(0.0313, 0.0273, 0.0379, 0.0427, 0.0286, 0.0327, 0.0298, 0.0381, 0.0559, 0.0573,
0.0558, 0.113, 0.0464, 0.0442, 0.0579, 0.0495)

La forma estúpida de hacer esto en R sería:

ks.test(abc, pnorm, mean(abc), sd(abc))

Sí, ya sé que la página de ayuda de ks.test dice que no se utilicen los datos para estimar la media/sd de la distribución de comparación. Por lo tanto, estúpido. Sidenote - si he entendido bien, SAS está utilizando esto como un procedimiento regular? http://support.sas.com/documentation/cdl/en/procstat/63104/HTML/default/viewer.htm#procstat_univariate_sect037.htm

De todos modos, el valor p que da R para esta prueba inadecuada es 0,3027, mientras que aparentemente tanto Minitab como Systat proporcionan un valor p de 0,029.

El jefe de proyecto no oirá hablar de utilizar otros medios para comprobar la normalidad (o, cielos, utilizar gráficos de distribución de datos). En este momento sólo intento averiguar qué es lo que hacen los otros programas, para poder explicarme las diferencias...

¿Me estoy perdiendo algo? Si la gente sugiere el uso de simulaciones en lugar de la prueba directa, como aquí ( http://r.789695.n4.nabble.com/Kolmogorov-Smirnov-Test-td3037232.html ), ¿sería posible incluir un código detallado?

Gracias.

3voto

Eero Puntos 1612

Aquí hay algo de código R para hacer una simulación generando datos de una normal con la misma media y sd, y luego hacer la prueba KS utilizando la muestra (no la generación) de estadísticas:

out <- replicate(100000, {x <- rnorm( length(abc), mean(abc), sd(abc) );
    ks.test(x, pnorm, mean(x), sd(x))$p.value } )

hist(out)

mean(out <= ks.test(abc, pnorm, mean(abc), sd(abc))$p.value)

Mi valor p estimado a partir de la simulación es de 0,021 (se puede obtener más exactitud/precisión ejecutando más simulaciones), que es más similar a los valores de minitab/systat (pero no exactamente). Así que esto sugiere que los otros programas pueden estar ajustando de alguna manera para los valores de los parámetros estimados. Pero todavía hay suficiente diferencia que espero que el ajuste es diferente del procedimiento de simulación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X