La inestabilidad de Kolmogorov-Smirnov dependiendo de si los valores son pequeños o grandes

Question

La inestabilidad de Kolmogorov-Smirnov dependiendo de si los valores son pequeños o grandes

Preguntado el 6 de Marzo, 2023: Cuando se hizo la pregunta
902 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Por curiosidad, me di cuenta de que la prueba de normalidad de Kolmogorov-Smirnov devuelve dos valores p muy diferentes dependiendo de si el conjunto de datos tiene números pequeños o grandes. ¿Es esto normal y hay un límite de tamaño de número para esta prueba? Por lo que vi, la prueba de Shapiro-Wilk era mucho más estable.

Probé esto

ks.test(c(0.5379796,1.1230795,-0.4047321,-0.8150001,0.9706860),"pnorm")

Prueba de Kolmogorov-Smirnov de una muestra

datos:  c(0.5379796, 1.1230795, -0.4047321, -0.8150001, 0.970686)

D = 0.3047, valor p = 0.6454

hipótesis alternativa: dos colas

Y luego multipliqué cada valor por 100

ks.test(c(53.79796,112.30795,-40.47321,-81.50001,97.06860),"pnorm")

Prueba de Kolmogorov-Smirnov de una muestra

datos:  c(53.79796, 112.30795, -40.47321, -81.50001, 97.06860)

D = 0.6, valor p = 0.03008

hipótesis alternativa: dos colas

Con los mismos datos, la prueba de Shapiro-Wilk devuelve un valor p de 0.3999.

Preguntado el 6 de Marzo, 2023 por Tim C

0 votos

De acuerdo, esos números parecen más como si los hubieras multiplicado por 100. :)

Comentado el 6 de Marzo, 2023 por Dave

0 votos

Esta pregunta ya ha sido abordada en múltiples publicaciones en el sitio.

Comentado el 8 de Marzo, 2023 por AdamSane

Answer 1

2 Respuestas

Answer 2

17voto

Dave Puntos 76

De la forma en que lo has codificado, estás preguntando al test KS acerca de una hipótesis nula de que la distribución es $N(0,1)$. En el primer conjunto de números, eso parece plausible. En consecuencia, el valor p es alto. En el segundo conjunto de números, eso no parece ser el caso. Números como esos típicamente no provienen de una distribución $N(0,1)$. En consecuencia, el valor p es bajo.

Al multiplicar por un factor, has cambiado la varianza. Dado que el test KS considera todos los aspectos de la distribución, incluida la varianza, el test considera correctamente a los dos conjuntos de datos como diferentes.

La razón por la cual Shapiro-Wilk es más estable es porque evalúa la normalidad. Multiplicar por un factor positivo no cambia la normalidad, por lo que Shapiro-Wilk no tendrá el mismo tipo de sensibilidad a un cambio de varianza que KS.

Respondido el 6 de Marzo, 2023 por Dave (76 Puntos )

1 votos

Verdadero, hubo un error tipográfico en el código para el *100. pero tu respuesta sigue siendo válida, ¡gracias!

Comentado el 6 de Marzo, 2023 por Tim C

3 votos

Además, hay advertencias específicas sobre el uso de la prueba K-S con parámetros estimados a partir de los datos, que presumiblemente necesitas aquí, y advertencias generales sobre la relativa inutilidad de tales pruebas. ¡Simplemente traza los datos en un gráfico de cuantiles normal! (Con muchos otros nombres: gráfico de probabilidad normal, gráfico de puntuaciones normales, etc.)

Comentado el 6 de Marzo, 2023 por Nick Cox

0 votos

Gracias. Si aún queremos realizar esta prueba, ¿tenemos que estandarizar nuestros datos sistemáticamente primero?

Comentado el 6 de Marzo, 2023 por Tim C

Mostrar 5 comentarios más

Answer 3

8voto

Shane Oliver Puntos 126

Agregando a la respuesta existente, cabe señalar que las dos llamadas ks.test a continuación producen la misma salida.

x = c(0.5379796,1.1230795,-0.4047321,-0.8150001,0.9706860)
ks.test(x, pnorm)
#> 
#>  Prueba de Kolmogorov-Smirnov unidireccional exacta de una muestra
#> 
#> datos:  x
#> D = 0.3047, valor-p = 0.6454
#> hipótesis alternativa: dos colas

ks.test(x*100, pnorm, sd = 100)
#> 
#>  Prueba de Kolmogorov-Smirnov unidireccional exacta de una muestra
#> 
#> datos:  x * 100
#> D = 0.3047, valor-p = 0.6454
#> hipótesis alternativa: dos colas

Nota de sintaxis R: los argumentos por defecto de pnorm() son mean = 0, sd = 1. Todo lo que está después del segundo argumento en ks.test() se pasa como argumento a la función pnorm() en este caso.

Respondido el 6 de Marzo, 2023 por Shane Oliver (126 Puntos )

0 votos

¿Significa esto que la forma óptima de ejecutar esta prueba es escribir ks.test(x, pnorm, mean=mean(sample), sd=sd(sample)) o hay una forma más rápida?

Comentado el 6 de Marzo, 2023 por Tim C

6 votos

Respuesta al comentario: 1. No porque esa prueba es inválida. Consulte las observaciones en otro lugar con la palabra clave=:Lilliefors. 2. ¿Quién dijo que óptimo = más rápido?

Comentado el 6 de Marzo, 2023 por Nick Cox

La inestabilidad de Kolmogorov-Smirnov dependiendo de si los valores son pequeños o grandes

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

La inestabilidad de Kolmogorov-Smirnov dependiendo de si los valores son pequeños o grandes

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: