Hemos implementado un par de tipos de pruebas de hipótesis estadísticas, uno de los cuales es el de la chi cuadrado modelo adecuado de la prueba - una prueba de la chi cuadrado de los números de las muestras en recipientes de determina a partir de la inversa de la CDF de la distribución de probabilidad. Así, por ejemplo, a prueba de Cauchy distribución de la muestra de la generación, me encuentro con algo como
with(Statistics):
infolevel[Statistics] := 1:
distribution := CauchyDistribution(2, 3):
sample := Sample(distribution, 10^6):
ChiSquareSuitableModelTest(sample, distribution, 'bins' = 100, 'level' = 0.001);
Porque me puede llegar a generar una gran muestra de como me gusta, puedo hacer de $\alpha$ muy pequeño.
Para distribuciones finito momentos, calculo, por un lado, un número de muestra momentos, y por otro lado, me simbólicamente calcular el correspondiente distribución de momentos y su error estándar. Así, por ejemplo, la distribución beta:
with(Statistics):
distribution := BetaDistribution(2, 3):
distributionMoments := Moment~(distribution, [seq(1 .. 10)]);
standardErrors := StandardError[10^6]~(Moment, distribution, [seq(1..10)]);
evalf(distributionMoments /~ standardErrors);
Esto muestra una disminución en la lista de los números, el último de los cuales es 255.1085766. Así que, incluso para el 10 de momento, el valor del momento es de más de 250 veces el valor del error estándar de la muestra momento para una muestra de tamaño $10^6$. Esto significa que se puede aplicar una prueba de que funciona más o menos como sigue:
with(Statistics):
sample := Sample(BetaDistribution(2, 3), 10^6):
sampleMoments := map2(Moment, sample, [seq(1 .. 10)]);
distributionMoments := [2/5, 1/5, 4/35, 1/14, 1/21, 1/30, 4/165, 1/55, 2/143, 1/91];
standardErrors :=
[1/5000, 1/70000*154^(1/2), 1/210000*894^(1/2), 1/770000*7755^(1/2),
1/54600*26^(1/2), 1/210000*266^(1/2), 7/5610000*2771^(1/2),
1/1567500*7809^(1/2), 3/5005000*6685^(1/2), 1/9209200*157366^(1/2)];
deviations := abs~(sampleMoments - distributionMoments) /~ standardErrors;
Los números en distributionMoments
y standardErrors
provienen de la primera ejecución por encima. Ahora bien, si la muestra de generación es correcta, los números de las desviaciones deben ser relativamente pequeños. Supongo que son aproximadamente distribuidos normalmente (que realmente no son, pero es lo suficiente - recordar estas son versiones a escala de la muestra momentos, no se la muestras a sí mismos) y por lo tanto, puedo, por ejemplo, la bandera de un caso en el que una desviación es mayor de 4 - correspondiente a una muestra momento en que se desvía más de cuatro veces el error estándar de la distribución momento. Esto es muy poco probable que ocurra al azar si la muestra de generación es bueno. Por otro lado, si los 10 primeros de la muestra momentos coinciden con la distribución de momentos para dentro de menos de la mitad de un por ciento, tenemos una aproximación bastante buena de la distribución.