56 votos

¿Cómo interpretar el valor p de la prueba de Kolmogorov-Smirnov (python)?

Tengo dos muestras que quiero probar (usando python) si se extraen de la misma distribución. Para ello utilizo la función estadística ks_2samp de scipy.stats. Me devuelve 2 valores y encuentro dificultades para interpretarlos. ¡Ayuda por favor!

44voto

Tyler Puntos 21

Como ha señalado Stijn, la prueba k-s devuelve un estadístico D y un valor p correspondiente al estadístico D. El estadístico D es la distancia máxima absoluta (supremum) entre las FDA de las dos muestras. Cuanto más se acerque este número a 0, más probable es que las dos muestras se hayan extraído de la misma distribución. Consulte la página de Wikipedia sobre la prueba k-s. Ofrece una buena explicación: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

El valor p devuelto por la prueba k-s tiene la misma interpretación que otros valores p. Se rechaza la hipótesis nula de que las dos muestras proceden de la misma distribución si el valor p es inferior al nivel de significación. Puede encontrar tablas en línea para la conversión del estadístico D en un valor p si está interesado en el procedimiento.

0 votos

Gracias por su respuesta. De hecho, conozco el significado de los 2 valores D y el valor P, pero no puedo ver la relación entre ellos. ¿Cómo puedo definir el nivel de significación? ¿Puede darme un enlace para la conversión del estadístico D en un valor p?

0 votos

Claro, tabla para convertir la estadística D en valor p: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf

0 votos

@CrossValidatedTrading: Tu enlace a la tabla D-stat-to-p-value es ahora 404.

7voto

user5795 Puntos 121

Al hacer una búsqueda en Google de ks_2samp, el primer resultado es este sitio web. En ella, se puede ver la especificación de la función:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

0 votos

¿Los parámetros a y b son mi secuencia de datos o debo calcular los CDF para usar ks_2samp?

0 votos

@meri: hay un ejemplo en la página que he enlazado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X