13 votos

Calcular el valor p a partir de una distribución arbitraria

Espero que no sea una pregunta tonta. Digamos que tengo una distribución continua arbitraria. También tengo una estadística, y me gustaría utilizar esta distribución arbitraria para obtener un valor p para esta estadística.

Me doy cuenta de que en R es fácil hacer esto siempre que tu distribución se ajuste a una de las incorporadas, como por ejemplo si es normal. Pero, ¿hay una manera fácil de hacer esto con cualquier distribución dada, sin hacer ese tipo de suposición?

20voto

Marc-Andre R. Puntos 789

Si tiene un función de distribución acumulativa $F$ y, a continuación, calcular el $p$ -valor para una estadística determinada $T$ es simplemente $1-F(T)$ . Esto es sencillo en R. Si tiene función de densidad de probabilidad por otro lado, entonces $F(x)=\int_{-\infty}^xp(t)dt$ . Puedes encontrar esta integral de forma analítica o numérica. En R esto se verá así:

dF <- function(x)dnorm(x)
pF <- function(q)integrate(dF,-Inf,q)$value 

> pF(1)
[1] 0.8413448
> pnorm(1)
[1] 0.8413447

Puedes afinar integrate para una mayor precisión. Por supuesto, esto puede fallar en casos específicos, cuando la integral no se comporta bien, pero debería funcionar para la mayoría de las funciones de densidad.

Por supuesto, se pueden pasar parámetros a pF si tiene varios valores de parámetros para probar y no quiere redefinir dF cada vez.

dF <- function(x,mean=0,sd=1)dnorm(x,mean=mean,sd=sd)
pF <- function(q,mean=0,sd=1)integrate(dF,-Inf,q,mean=mean,sd=sd)$value 

> pF(1,1,1)
[1] 0.5
> pnorm(1,1,1)
[1] 0.5

Por supuesto también se pueden utilizar métodos de Monte-Carlo como detalla @suncoolsu, esto sería un método numérico más de integración.

12voto

merriam Puntos 67

Sí, es posible utilizar cualquier distribución arbitraria para obtener un valor p para cualquier estadística . Teóricamente y en la práctica se puede calcular el valor p (unilateral) mediante esta fórmula.

$$\mathrm{p-value} = P[T > T_{observed} | H_0 \quad \mathrm{holds}]$$

Donde $T$ es el estadístico de prueba de interés y $T_{observed}$ es el valor que ha calculado para los datos observados.

Si se conoce la distribución teórica de $T$ en $H_0$ ¡genial! De lo contrario, puede utilizar la simulación MCMC para generar a partir del distribución nula de $T$ y calcular la integral de Montecarlo para obtener Valor p . Las técnicas de integración numérica también funcionarán en caso de que no quieras usar (puede ser) métodos de Monte Carlo más fáciles (especialmente en R; en Mathematica la integración puede ser más fácil, pero no tengo experiencia usándola)

La única suposición que estás haciendo aquí es sabes que el distribución nula de T (que puede no estar en los formatos estándar del generador de números aleatorios de R). Eso es todo -- siempre y cuando se conozca la distribución nula, se puede calcular el valor p.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X