¿Por qué los valores p y los estadísticos de la prueba ks disminuyen al aumentar el tamaño de la muestra? Tome este código de Python como ejemplo:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Los resultados son:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Intuitivamente entiendo que a medida que n crece, la prueba está "más segura" de que las dos distribuciones son diferentes. Pero si el tamaño de la muestra es muy grande, ¿qué sentido tienen las pruebas de similitud como ésta y, por ejemplo, la prueba de Anderson Darling, o la prueba t, porque en estos casos, cuando n es muy grande, las distribuciones siempre resultarán ser "significativamente" diferentes? Ahora me pregunto qué sentido tienen los valores p. Depende tanto del tamaño de la muestra... si p > 0,05 y quieres que sea menor, simplemente obtén más datos; y si p < 0,05 y quieres que sea mayor, simplemente elimina algunos datos.
Además, si las dos distribuciones fueran idénticas, el estadístico de la prueba ks sería 0 y el valor p 1. Pero en mi ejemplo, a medida que n aumenta, el estadístico de la prueba ks sugiere que las distribuciones se vuelven más y más similares con el tiempo (disminuye), pero según el valor p se vuelven más y diferentes con el tiempo (también disminuye).