5 votos

Distribución acumulada del valor p

Decir que tengo varias pruebas en N puntos de datos, para cada I obtener un p-valor ($0 < p < 1$). Si la hipótesis nula es verdadera, yo esperaría que la distribución de la p-valor de ser uniforme. Si, sin embargo, el empírica CDF es mayor que el uniforme de la diagonal ($\text{CDF}(p) > p$), por ejemplo, hay un 0.1 fracción de las muestras con valor de p por debajo de 0,01 etc., Yo podría usar una K-S de la prueba para la prueba de la p-valor de la distribución que lejos de ser uniforme, y así concluir con un p-valor para la pregunta: "¿hay punto importante de datos que se desvía de la hipótesis nula"?

Es la metodología anterior válido? Puede usted por favor me dan una referencia? Si no? ¿crees que esto puede ser escrito como un método de papel?

2voto

RGA Puntos 113

La idea básica suena bien para mí, pero usted tendrá que especificar qué tipo de incertidumbre que se trate de cuantificar con la prueba. En el caso habitual de pruebas estadísticas de la incertidumbre que se supone que es debido a un muestreo aleatorio de una población. En su caso, usted podría estar tratando de cuantificar la aleatoriedad que pertenece a un experimento de Monte Carlo. Esta es una buena idea, pero no es estándar y por lo tanto debe analizarse cuidadosamente. También tenga en cuenta que la distribución de $p$-valores legítimamente pueden desviarse de un continuo estándar de la distribución uniforme, incluso si la hipótesis nula es verdadera, por ejemplo, en un solo lado de la prueba: hay una muestra de la distribución, de manera que la distribución de la p-valor es sesgada hacia la 1?

Para dar un meta respuesta: la K-S de la prueba de no realizar demasiado bien, como se puede ver al examinar la distribución de $p$-valores como se puede ver en la siguiente simulación utilizando el programa Stata:

set seed 12345
clear all
set more off

program define sim
    drop _all
    set obs 100
    gen x = runiform()
    ksmirnov x = x
end
simulate p=r(p) p_cor=r(p_cor), reps(20000) : sim

Un K-S de la prueba en el cuadro de $p$-los valores de los resultados en la conclusión de que la hipótesis nula de que la distribución de $p$-valores está uniformemente distribuida, se rechaza al 5% nivel:

. ksmirnov p = p

One-sample Kolmogorov-Smirnov test against theoretical distribution
           p

 Smaller group       D       P-value  Corrected
 ----------------------------------------------
 p:                  0.0001    0.999
 Cumulative:        -0.0221    0.000
 Combined K-S:       0.0221    0.000      0.000

Note: ties exist in dataset;
      there are 19982 unique values out of 20000 observations.

. ksmirnov p_cor = p_cor

One-sample Kolmogorov-Smirnov test against theoretical distribution
           p_cor

 Smaller group       D       P-value  Corrected
 ----------------------------------------------
 p_cor:              0.0315    0.000
 Cumulative:        -0.0010    0.961
 Combined K-S:       0.0315    0.000      0.000

Note: ties exist in dataset;
      there are 19986 unique values out of 20000 observations.

Para la visualización de los resultados gráficamente me gusta este gráfico: muestra en el eje de la diferencia entre la estimación empírica de la Función de Distribución Acumulativa (CDF) y la teórica (continua uniforme estándar) de distribución. En el eje x es el valor nominal valor de p. La lógica detrás de este gráfico es que para $p$-valores en un estudio de simulación en el que la hipótesis nula es verdadera, la CDF empírica es una estimación empírica de la $p$-valor. El CDF empírica da para cada nominal $p$-valor de una estimación de la probabilidad de sacar una muestra de lo que se desvía al menos tanto de la hipótesis nula como la muestra actual (es decir, tiene un valor nominal de $p$-valor menor o igual a la corriente nominal $p$-valor) si la hipótesis nula es verdadera. Para valores negativos en el eje significa que el emprical estimaciones de la $p$-valor menor que el nominal $p$-valores y los valores positivos en el eje decir que las estimaciones empíricas de la $p$-valores son mayores que la nominal $p$-valores.

label var p `""standard" "p-value""'
label var p_cor `""corrected" "p-value""'

simpplot p p_cor, overall reps(20000) ///
    scheme(s2color) ylab(,angle(horizontal))   

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X