6 votos

Determinar si una secuencia de tiradas de la moneda es aleatorio

Dicen que han observado una secuencia finita de tiradas de la moneda. Hay una métrica de cómo es probable que esta secuencia es generado por un azar tirón de la moneda.

Por ejemplo, si lanzamos una moneda 1000 veces, presumiblemente, ver 500 cabezas y, a continuación, 500 colas es menos probable que una selección aleatoria de Cabezas y Colas.

También, presumiblemente, no veríamos cada flip ser una de las colas y todos los impares voltear a ser un mano a mano.

7voto

Markus Scheuer Puntos 16133

Hay diferentes métricas que se pueden utilizar para indicar la aleatoriedad cuando lanzas una moneda. Uno de estos es analizar la duración de las carreras más largas.

Carreras más largas:

Una carrera es una secuencia de consecutivos a cara o cruz. Podemos calcular la probabilidad de carreras de duración $k$ de una moneda a través de la generación de la función \begin{align*} W_k(z)=\frac{1-z^{k+1}}{1-2z+z^{k+1}} \end{align*} donde el coeficiente de $[z^n]$ $W_k(z)$ da el número de posibilidades de carreras de duración $\leq k$ cuando lanzas una moneda $n$ veces. La probabilidad de una ejecución que tienen una longitud de $k$ es por lo tanto \begin{align*} \frac{1}{2^n}[z^n]\left(\frac{1-z^{k+1}}{1-2z+z^{k+1}}-\frac{1-z^{k}}{1-2z+z^{k}}\right) \end{align*}

La derivación de la generación de esta función se da en detalle en la sección I. 4.1 en la Analítica de la Combinatoria de Philippe Flajolet y Robert Sedgewick.

También citan una bonita historia, atribuido a T. Varga (p. 52) en torno a este tema:

  • "Una clase de la escuela secundaria de los niños se divide en dos secciones. En una de las secciones, cada niño se le da una moneda que se lanza de dos centenares de veces, la grabación de la resultante de la cabeza y la cola de la secuencia en un pedazo de papel. En la sección otros, los niños no reciben monedas, pero se nos dice que en lugar de que se debe tratar de escribir un "random" con la cabeza y la cola de la secuencia de longitud de doscientos. La recogida de estos trozos de papel, [un estadígrafo / a], a continuación, intenta subdividir en sus grupos originales. La mayoría de las veces, lo consigue bastante bien."

    El estadístico s secret es determinar la distribución de probabilidad de la máxima longitud de los recorridos consecutivos de letras aleatorias de palabra de longitud $n$ (aquí se $n=200$). La probabilidad de que este parámetro es igual a $k$ es \begin{align*} \frac{1}{2^{200}}[z^{200}]\left(\frac{1-z^{k+1}}{1-2z+z^{k+1}}-\frac{1-z^{k}}{1-2z+z^{k}}\right) \end{align*} Las probabilidades son fácilmente calculadas usando cualquier simbólico paquete: por $n=200$, los valores encontrados son $$ \begin{array}{r|ccccc} k&3&4&5&\color{blue}{6}&\color{blue}{7}\\ \hline\\ \mathbb{P}(k)&6.54\,10^{-8}&7.07\,10^{-4}&0.0339&\color{blue}{0.1660}&\color{blue}{0.2574}\\ \\ \\ k&\color{blue}{8}&\color{blue}{9}&\color{blue}{10}&\color{blue}{11}&\color{blue}{12}\\ \hline\\ \mathbb{P}(k)&\color{blue}{0.2235}&\color{blue}{0.1459}&\color{blue}{0.0829}&\color{blue}{0.00440}&\color{blue}{0.0226}\\ \end{array} $$ Por lo tanto, en un azar que produce la secuencia de longitud $200$, por lo general hay pistas de longitud $6$ o más: la probabilidad de que el evento resulta ser cerca de $97\%$ (y todavía hay una probabilidad de alrededor de $8\%$ tener una corrida de longitud $11$ o más). Por otro lado la mayoría de los niños (y adultos) son generalmente miedo de escribir se ejecuta más de $4$ o $5$, ya que esto se sentía tan fuertemente "no-aleatorio". El estadístico simplemente selecciona las hojas que contienen las carreras de la longitud de la $6$ o más como el verdadero azar. Voilà!

Otra métrica es la primera y la última igualdad de número de cabezas y colas al lanzar una moneda no trucada $n$ veces. Esto está fuertemente conectada con el llamado Arcoseno de la ley. El siguiente es de capítulo III: las Fluctuaciones en la Moneda que se mueva y el paseo Aleatorio de la clásica Introducción a la Teoría de la Probabilidad y Sus Aplicaciones, Vol. Yo por W. Feller.

El arcoseno de la ley:

Supongamos que un juego, lanzar una moneda buena. Nos interprete resultante de las secuencias de las cabezas y las colas, como el paseo aleatorio de partida en $(0,0)$ e ir $(1,1)$ si la cabeza se produce y $(1,-1)$ si la cola se produce.

A continuación, el siguiente es válido: Con una probabilidad de $\frac{1}{2}$ no se produce una compensación en la segunda mitad del juego, independientemente de la duración del juego. Además, las probabilidades cerca del punto final son mayores.

Esto es debido a que el Arcoseno de la ley para la última visita (ver, por ejemplo, Vol. 1, cap.3, sección 4, Teorema 1 en W. Feller del libro): La probabilidad de que, hasta e incluyendo la época de la $2n$ de la última visita a el origen se produce en la época de $2k$ está dado por \begin{align*} \alpha_{2k,2n}=\frac{1}{4^n}\binom{2k}{k}\binom{2n-2k}{n-k} \end{align*} Desde entonces, según la fórmula de Stirling \begin{align*} \binom{2k}{k}\sim \frac{1}{\sqrt{\pi k}} \end{align*} se puede demostrar que fija $0<x<1$ $n$ suficientemente grande \begin{align*} \sum_{k<xn}\alpha_{2k,2n}\approx \frac{2}{\pi}\arcsin \sqrt{x} \end{align*}

Otros indicadores son el número de cambios de signo (más cabezas de las colas o viceversa), primeros pasos y vuelve al origen, la equidistribución de cabezas y colas, etc. Capítulo III por W. Feller proporciona una introducción completa.

4voto

BruceET Puntos 7117

Familiares de pruebas y el intervalo de confianza métodos se han utilizado para comprobar si un proceso es justo, produciendo el mismo número de Cabezas y Colas. Quizás esta discusión ha alcanzado el punto en el que vale la pena considerar por separado de algunos de los métodos para comprobar si un proceso se produce Cabezas y Colas independientemente de juicio a prueba.

Proceso Independiente. A grandes rasgos, las cadenas de Markov pueden tener un paso de la dependencia, en el que el siguiente paso depende (en la mayoría) en la actual. En primer lugar, nos fijamos en una cadena en la que los pasos son puramente independiente. Usted puede pensar en él como los sucesivos lanzamientos de un injusto la moneda en que $P(Heads) = \theta = 1/3$ (designado pp para la proporción de la población en el R código de abajo).

Hacemos las siguientes cuatro parcelas de este proceso de primarias:

  • Gráfico de barras mostrando 0 (Colas) y 1s (Cabezas),

  • Trazado que muestra la convergencia de la acumulación de los medios de recuento a 1/3

  • La historia de la trama que muestra el valor de H (H =1, T=0), para los primeros pasos.

  • ACF (función de autocorrelación) parcela

.

set.seed(123)
m = 10000;  n = 1:m;  pp = 1/3;  x = rbinom(m, 1, pp)
s.x = cumsum(x);  t.x = s.x/n
par(mfrow=c(2,2)); RLE = rle(sort(x))
  barplot(RLE$lengths/m, names=c("0=Tail", "1=Heads"), main="Barchart")
  plot(t.x, type="l", lwd=2, ylim=c(0,1), main="Trace")
     abline(h=pp, col="green")
  plot(1:100, x[1:100], type="s", main="History")
  acf(x, ylim=c(-.1,.1), main="ACF Plot")
par(mfrow=c(1,1))

enter image description here

A grandes rasgos, el ACF trama es encontrar buscando en las correlaciones de 'gal':

lag $0:$ $(X_1, X_2, \dots, X_m)$ vs $(X_1, X_2, \dots, X_m),$ para que la correlación es siempre $r = 1)$; lag $1:$ $(X_2, X_3, \dots, X_m)$ vs $(X_1, X_2, \dots X_{m–1});$ lag $2:$ $(X_3, X_4, \dots, X_m)$ vs $(X_1, X_2, \dots, X_{m–2});$ y así sucesivamente. (En realidad, en la búsqueda de todas las correlaciones, la media muestral y la varianza de todos los $m$ observaciones.)

En las cuatro parcelas anteriormente: (i) La Barchart muestra que hay acerca de $1/3$ Cabezas. (ii) El Seguimiento muestra que la proporción acumulada de los enfoques $1/3$ de acuerdo a la Ley de los Grandes Números. (iii) La Historia de la parcela muestra ciclos: un ciclo de $0$ $1$y de vuelta a $0$ toma $1/\theta + 1/(1 – \theta) = 3 + 3/2 = 4.5$ pasos en promedio. (iv) La ACF parcela Para este proceso independiente muestra que sólo alrededor de $5\%$ de quedado correlaciones $r$ se encuentran fuera de la banda de confianza (azul líneas de puntos).

Dependiente Del Proceso. Ahora nos muestran un proceso dependiente de que aproximadamente modelos la temporada de lluvias del llamado Clima Mediterráneo. Rainly días (1) siga los días soleados (0) con una probabilidad de $\alpha =0.1,$ y los días de sol siga lluvias con probabilidad de $\beta = 0.2.$

set.seed(1237);  m = 10000;  w = numeric(m);  n = 1:m
alpha = 0.1;  beta = 0.2  # weather change probabilities
w[1] = 0                  # start with a sunny day
for (i in 2:m)  {
   if (w[i-1]==0)  w[i] = rbinom(1, 1, alpha)
   else            w[i] = rbinom(1, 1, 1 - beta)  }
s.w = cumsum(w);  t.w = s.w/n
par(mfrow=c(2,2));  RLE = rle(sort(w))
 barplot(RLE$lengths/m, names=c("0=Sun", "1=Rain"), main="Barchart")
 plot(t.w, type="l", lwd=2, ylim=c(0,1), xlab="Day", main="Trace")
  abline(h=alpha/(alpha+beta), col="green")
 plot(1:100, w[1:100], type="s", xlab="First 100 Days", main="History")
 acf(w, ylim=c(-.1,1), main="ACF Plot")
par(mfrow=c(1,1))

enter image description here

Aquí: (i) La Barchart muestra Acerca de $\alpha/(\alpha + \beta) = 1/3$ días de Lluvia. (ii) La Traza muestra la proporción acumulada de Lluvias se acerca el día de $1/3.$ (iii) La Historia de la parcela muestran los ciclos más largos que en el independiente proceso. Un ciclo: de Soleado a Lluvioso y de regreso $1/\alpha + 1/\beta =$ $10 + 5 = 15$ días en promedio. (iv) La ACF gráco muestra que la dependencia en el tiempo del día actual "desaparece" después de unos 10-12 días. Pero de autocorrelación para el primer par de los gal es significativamente positivo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X