Inspirado por Peter Donnelly la charla en TED, en la que él habla de cuánto tiempo tomaría para que un determinado patrón de aparecer en una serie de lanzar una moneda, he creado el siguiente script en el R. Dado dos patrones "hth' y 'htt', calcula cuánto tiempo se necesita (es decir, cuántas lanzar una moneda), en promedio, antes de llegar a uno de estos patrones.
coin <- c('h','t')
hit <- function(seq) {
miss <- TRUE
fail <- 3
trp <- sample(coin,3,replace=T)
while (miss) {
if (all(seq == trp)) {
miss <- FALSE
}
else {
trp <- c(trp[2],trp[3],sample(coin,1,T))
fail <- fail + 1
}
}
return(fail)
}
n <- 5000
trials <- data.frame("hth"=rep(NA,n),"htt"=rep(NA,n))
hth <- c('h','t','h')
htt <- c('h','t','t')
set.seed(4321)
for (i in 1:n) {
trials[i,] <- c(hit(hth),hit(htt))
}
summary(trials)
El resumen de las estadísticas son como sigue,
hth htt
Min. : 3.00 Min. : 3.000
1st Qu.: 4.00 1st Qu.: 5.000
Median : 8.00 Median : 7.000
Mean :10.08 Mean : 8.014
3rd Qu.:13.00 3rd Qu.:10.000
Max. :70.00 Max. :42.000
En la charla se explica que el número promedio de lanzar una moneda iba a ser diferente para los dos patrones; como puede verse en mi simulación. A pesar de ver la charla de un par de veces no estoy recibiendo por qué esto sería el caso. Entiendo que 'hth" se superpone a sí mismo y de forma intuitiva me gustaría pensar que usted podría golpear 'hth' antes que 'htt', pero este no es el caso. Yo realmente apreciaría si alguien podría explicar esto a mí.