7 votos

Compruebe distribuidos uniformemente variable aleatoria continua

Tengo una variable aleatoria que sé que es uniformemente distribuidos, y me esperan para ser distribuido entre el rango de $[0,1]$. Entonces, puedo generar (simular) 100 realizaciones de la variable.

La pregunta: Cual es la mejor manera de encontrar la probabilidad de que el subyacente "real" de la gama de la variable está en el hecho de $[0,1]$ de las realizaciones?

Es claro que si el 100 realizaciones están dentro del rango de $[0.51, 0.69]$, la probabilidad es muy baja, mientras que si se encuentran dentro del rango de $[0.01, 0.99]$, que debe ser alta.

He intentado simplemente para el cálculo de la real vs rango esperado relación $$ ((0.69-0.51)/(1-0)) = 0.08, $$ y se presume que fue la probabilidad de $p$ de cada realización. Entonces se calcula la probabilidad de que suceda 100 veces $p^{100}$.

El problema es que, para una correcta del caso, en el que el rango original fue hecho en $[0,1]$, la realización gama resultó ser $[0.02,0.93]$ y la probabilidad calculada es muy bajo $0.91^{100} = 0.0012$, lo cual no tiene sentido.

Así que, ¿qué es lo que estoy consiguiendo completamente equivocado?

EDIT. Aclaraciones gracias a @whuber (1) estoy intentando comprobar que el rango de la variable subyacente es, de hecho, [0,1] (para fines de validación) (2) sólo quiero revise el rango y saber que tan probable es que en realidad es [0,1]. (3) las realizaciones son independientes $rand(1,100)$ en Matlab

5voto

jldugger Puntos 7490

A pesar de que no tiene sentido buscar una probabilidad (a menos que usted especifique una distribución previa de los extremos), usted puede encontrar la probabilidad relativa. Una buena base para la comparación sería la hipótesis alternativa de que los números son dibujados a partir de una distribución uniforme entre un límite inferior $L$ y el límite superior $U$.

Las estadísticas suficientes son los mínimos $X$ y un máximo de $Y$ de todos los datos (suponiendo que cada número se obtiene de forma independiente). No importa si usted dibuja los datos en lotes o no. Cuando se dibuja desde el intervalo de $[0,1]$, la distribución conjunta de $(X, Y)$ es continua y tiene una densidad de

$$\eqalign{f(x,y) &= \binom{n}{1,n-2,1}(y-x)^{n-2}\mathcal{I}(0\le x\le y\le 1) \\ &= n(n-1)(y-x)^{n-2}\mathcal{I}(0\le x\le y\le 1).}$$

When scaled by $U-L$ and shifted by $L$, this density becomes

$$f_{(L,U)}(x,y) = (U-L)^{-n} n(n-1)(y-x)^{n-2}\mathcal{I}(L\le x\le y\le U).$$

Obviously this is greatest when $L = x$ and $U=y$.

The relative likelihood is their ratio, best expressed as a logarithm:

$$\Lambda(X,Y) = \log\left(\frac{f_{(X,Y)}(X,Y)}{f(X,Y)}\right) = -n\log(Y-X).$$

A small value of this is evidence for the hypothesis $(L,U)=(0,1)$; larger values are evidence against it. Of course if $X \lt 0$ or $S \gt 1$ the hypothesis is controverted. But when the hypothesis is true, for large $n$ (greater than $20$ or so), $2\Lambda(X,Y)$ will have approximately a $\chi^2(4)$ distribution. Assuming $X \ge 0$ and $S \le 1$, this enables you to reject the hypothesis when the chance of a $\chi^2(4)$ variable exceeding $2\Lambda(X,Y)$ becomes so small you can no longer suppose the large value can be attributed to chance alone.

I will not attempt to prove that the $\chi^2(4)$ distribution is the one to use; I will merely show that it works by simulating a large number of independent values of $2\Lambda(X,Y)$ when the hypothesis is true. Since you have the ability to generate large values of $n$, let's take $n=500$ as an example.

Figure

$100,000$ results are shown for $n=500$. The red curve graphs the density of a $\chi^2(4)$ variable. It closely agrees with the histogram.


As a worked example consider the situation posed in the question where $n=100$, $X= 0.51$, and $Y=0.69$. Now

$$-2\Lambda(0.51, 0.69) = -2(100\log(0.69 - 0.51)) = 343.$$

The corresponding $\chi^2(4)$ probability is less than $10^{-72}$: although we would never trust the accuracy of the $\chi^2$ approximation this far out into the tail (even with $n=100$ observations), this value is so small that certainly these data were not obtained from $100$ independent uniform$(0,1)$ variables!

In the second situation where $X=0.01$ and $Y=0.99$,

$$-2\Lambda(0.01, 0.99) = -2(100\log(0.99 - 0.01)) = 4.04.$$

Now the $\chi^2(4)$ probability is $0.40 = 40\$, quite consistent with the hypothesis that $%(L,U)=(0,1)$.


BTW, here's R code to perform simulations. I have reset it to just $10,000$ iteraciones para que tarde menos de un segundo para completar.

n <- 500 # Sample size
N <- 1e4 # Number of simulation trials
lambda <- apply(matrix(runif(n*N), nrow=n), 2, function(x) -2 * n * log(diff(range(x))))
#
# Plot the results.
#
hist(lambda, freq=FALSE, breaks=seq(0, ceiling(max(lambda)), 1/4), border="#00000040", 
     main="Histogram", xlab="2*Lambda")
curve(dchisq(x, 4), add=TRUE, col="Red", lwd=2)

0voto

soakley Puntos 1968

No está claro exactamente lo que usted necesita, pero primero vamos a echar un vistazo a cómo calcular los límites inferior y superior. Se afirma en la Wikipedia que la uniformidad de la insesgados de mínima varianza de los estimadores para la distribución uniforme continua en $(a,b)$ es el máximo espaciamiento de los estimadores $$ \hat{a}={{nx_{(1)}-x_{(n)}} \over {n-1}},\ \ \hat{b}={{nx_{(n)}-x_{(1)}} \over {n-1}}, $$ where $x_{(1)}$ is the minimum observed value, $x_{(n)}$ is the maximum observed value, and $n$ is the sample size. Note that $\hat{a}$ can be negative and $\hat{b}$ can be greater than one when the population is $U(0,1)$.

No sé si esto es suficiente para usted o no. Parece que usted realmente desea probar si la salida es verdaderamente $U(0,1).$ Si ese es el caso, ¿por qué no realizar un K-S de la prueba ya que su distribución deseada está completamente especificado? En este caso, si la hipótesis nula es verdadera, los p-valores también debe tener un $U(0,1)$ distribución.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X