4 votos

Probabilidad de dos valores iguales en una muestra extraída de una distribución continua

Estoy leyendo sobre el Kolmogrov-Smirnov pruebas del libro Probabilidad y Estadística DeGroot y Schervish. En el primer par de líneas sobre este tema, los autores afirman lo siguiente:-

Suponga que las variables aleatorias X1,...,Xn forman una muestra aleatoria de algunos de distribución continua, y vamos a x1,...,xn denotar los valores observados de X1,...,Xn. Dado que las observaciones provienen de una distribución continua, hay probabilidad de 0 que dos de los valores observados x1,...,xn será igual. Por lo tanto, se asume por simplicidad que todos los n valores son diferentes.

Mi pregunta es - Para una muestra de una distribución continua, será la probabilidad de que dos muestras de los valores de la igualdad de ser exactamente cero o aproximadamente cero? Si es el antiguo, por favor puede darme una pista sobre cómo demostrarlo matemáticamente?

Intuitivamente, la probabilidad de ser aproximadamente cero tiene sentido sin embargo rara que puede ser, es posible tener dos valores iguales generado a partir de una distribución. He intentado comprobar este computacionalmente mediante la ejecución de una simple secuencia de comandos de R (por abajo) y después de la ejecución de un 100 veces, tengo la probabilidad de ser igual a cero en todos los casos. Puede estar ejecutando un par de millones de veces podrían producir mejores resultados, sino que sería cruel en mi Dell Core i3, memoria RAM de 2 gb portátil.

probOfCommonObs <- rep(0, 100)
noOfCommonObs <- rep(0, 100)
for(i in 1:100)
{
  gaussianSample <- rnorm(1000, sample(1:50, 1), sample(1:50, 1))
  for(j in 1:999)
  {
    for(k in (j+1):1000)
    {
      if(gaussianSample[j] == gaussianSample[k])
        {
          noOfCommonObs[i] <- noOfCommonObs[i] + 1
        }
    }
  }
  probOfCommonObs[i] <- noOfCommonObs[i]/1000
}

noOfCommonObs
probOfCommonObs 

Supongo que una explicación teórica podría ayudar a aclarar mi duda y cualquier ayuda sería muy apreciada.

He guardado la publicación de las instrucciones en cuenta al escribir este post, pero quisiera pedir disculpas si he cometido algún error. Gracias!

14voto

phloopy Puntos 4285

La respuesta es exactamente 0 en la teoría y en aproximadamente 0 en la práctica.

Deje $X$ ser una variable aleatoria continua. A continuación, $Y=X_i-X_j$ es también continua.

Si $P(Y=0)=0$, entonces la probabilidad de que dos observaciones de $X$ igualdad de condiciones es $0$, desde $$P(X_i=X_j)=P(X_i-X_j=0)=P(Y=0)=0.$$ If $P(Y=0)>0$ then the probability of doublets is greater than $0$.

A ver que $P(Y=x)>0$ es imposible para cualquier $x$, tenga en cuenta que $Y$ continua significa que $F(x)=P(Y\leq x)$ es continua en a $x$. Así, desde la $P(a<Y\leq b)=F(b)-F(a)$,

$$P(Y=x)=\lim_{\epsilon\rightarrow 0} P(x-\epsilon<Y\leq x+\epsilon)=\lim_{\epsilon\rightarrow 0}\Big( F(x+\epsilon)-F(x-\epsilon)\Big)=0.$$

Por lo tanto $P(X_i=X_j)=P(Y=0)=0.$

Esto funciona de la misma manera como lo hace en longitud. La longitud de un solo punto es $0$, pero la longitud de un intervalo que contiene un uncountably número infinito de puntos es más que $0$. Del mismo modo, la probabilidad de $Y=x$$0$, pero la probabilidad de que $Y\in (x-\epsilon,x+\epsilon)$ es mayor que $0$.

Datos reales, por otro lado, nunca es continua. Incluso las mediciones con gran precisión tienen un número finito de decimales que se les otorga. Esto significa que en realidad hay una pequeña probabilidad de obtener los dobletes.

Deje $X_{obs}$ ser el valor observado de $X$, redondeado a cuatro decimales. A continuación, como ejemplo, $$P(X_{obs}=2.5934)=P(|X-2.5934|<0.00005)>0.$$ La probabilidad de obtener la misma observación, nuevamente, es por lo tanto la probabilidad de que $X$ cae en un pequeño intervalo que lo rodea, ya que esto hará que el rendimiento de la misma $X_{obs}$ nuevo.

A pesar de no existir datos continua, continua, las distribuciones son muy útiles como aproximaciones, ya que trabajar con integrales a menudo es mucho más fácil que trabajar con complicadas sumas de dinero (que es lo que podríamos conseguir si nosotros siempre tratamos de uso altamente granular distribuciones discretas).

Edit: gracias a Procrastinador, Didier y Stéphane para ayudar a mejorar esta respuesta. :)

6voto

Eero Puntos 1612

Una definición de "continuo" en cuanto a las variables aleatorias es que si un RV es continua, entonces si se va a medir con la precisión suficiente (suficiente decimales) a continuación, cada una de las observaciones (en la población o teórico de la distribución) sería identificar de forma única. Esta facilidad se muestra que la probabilidad de obtener 2 idénticas observaciones es 0, por definición, de continuo.

Esto no puede ser simulado mediante el uso de equipos de precisión finita, ya que técnicamente el uso de una aproximación discreta a una variable continua, por lo que finalmente se obtendría lazos debido al redondeo. Sin embargo, la aproximación es muy buena para la mayoría de los casos.

Esto también significa que es posible tener una continua nominal RV así.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X