24 votos

K aciertos en los ensayos de Bernoulli, o el experimento cinematográfico de George Lucas

Ahora estoy leyendo "El andar del borracho" y no consigo entender ni una sola de sus historias.

Ahí va:

Imagina que George Lucas hace una nueva película de Star Wars y en un mercado de pruebas decide hacer un experimento loco. Estrena la misma película con dos títulos: "Star Wars: Episodio A" y "Star Wars: Episodio B". Cada película tiene su propia campaña de marketing y calendario de distribución, con los detalles correspondientes idénticos salvo que los tráilers y anuncios de una película dicen "Episodio A" y los de la otra, "Episodio B".

_

Ahora lo convertimos en un concurso. ¿Qué película será más popular? Digamos que nos fijamos en los primeros 20.000 espectadores y registramos la película que eligen ver (ignorando a los fans acérrimos que irán a ver las dos y luego insistirán en que había diferencias sutiles pero significativas entre las dos). Como las películas y sus campañas de marketing son idénticas, podemos modelar matemáticamente el juego de esta manera: Imagine que pone a todos los espectadores en fila y lanza una moneda al aire para cada espectador por turno. Si la moneda sale cara, el espectador ve el Episodio A; si sale cruz, el Episodio B. Como la moneda tiene las mismas posibilidades de salir cara o cruz, se podría pensar que en esta guerra experimental de taquilla cada película debería ir en cabeza aproximadamente la mitad de las veces.

_

Pero las matemáticas del azar dicen lo contrario: el número más probable de cambios en el liderazgo es 0, y es 88 veces más probable que una de las dos películas lidere a lo largo de los 20.000 clientes que, por ejemplo, que el liderazgo oscile continuamente"

Yo, probablemente de forma incorrecta, atribuyo esto a un simple problema de ensayos de Bernoulli, y debo decir que no veo por qué el líder no se balancea por término medio. ¿Alguien me lo puede explicar?

23voto

phloopy Puntos 4285

Aquí tienes un código R para simular el experimento de George Lucas:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

Ejecutándolo, obtenemos imágenes como estas:

enter image description here

donde la diferencia de entradas vendidas entre A y B está en el eje y.

A continuación, ejecutamos $10,000$ tales experimentos simulados de George Lucas. Para cada experimento, calculamos la proporción de tiempo empleado $\geq 0$ es decir, la proporción de espectadores en fila para los que el número de entradas vendidas para A es mayor o igual que el número de entradas vendidas para B. Intuitivamente, se diría que esta proporción debería ser de aproximadamente $1/2$ . He aquí un histograma de los resultados:

enter image description here

La proporción es $1/2$ por término medio en el sentido de que el valor esperado es $1/2$ pero $1/2$ es un valor poco probable en comparación con valores cercanos a $0$ o $1$ . En la mayoría de los experimentos, las diferencias son positivas o negativas la mayor parte del tiempo.

La curva roja es la función de densidad de la distribución arcoseno, también denominada $\mbox{Beta}(1/2,1/2)$ distribución . Lo que se ilustra en la imagen anterior es un teorema conocido como el primer ley de arscine para paseos aleatorios que dice que a medida que el número de pasos del paseo aleatorio simétrico simple se aproxima a infinito, la distribución de la proporción de tiempo empleado por encima de $0$ tiende a la distribución arcoseno. Una referencia estándar para este resultado es la Sección III.4 de Introducción a la teoría de la probabilidad y sus aplicaciones , Vol 1 por William Feller.


El código R para el estudio de simulación es

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

11voto

matt Puntos 11

Tanto A como B tienen un $1/2$ posibilidad de estar por delante después de cualquier número impar de ensayos $t$ (impar para evitar empates). Sin embargo, estos acontecimientos están relacionados. El que esté por delante después de $t=1$ tiene un $3/4$ oportunidad de salir adelante tras $t=3$ y esto se vuelve más dramático a medida que $t$ aumenta.

El número medio de cambios de pista crece hasta el infinito a medida que aumenta el número total de pruebas, pero lentamente. Un paseo aleatorio sin deriva en $1$ es recurrente, por lo que, por muy a la cabeza que estés, la probabilidad de que empates en algún momento en el futuro (con un número infinito de pruebas) es $1$ . Sin embargo, aunque sólo lleves uno de ventaja, el tiempo previsto hasta que vuelvas a estar empatado es infinito. Existe una gran probabilidad de que se tarde mucho tiempo en volver al empate.

Dicho esto, el modo se utiliza para exagerar el efecto . De hecho, sería una sorpresa que no se produjera ningún cambio de liderazgo en $20,000$ ensayos.

Si quieres calcular algunas de las probabilidades, tienes que contar algo parecido a paseos reticulares que no cruzan la diagonal. Existe un gran método combinatorio que se aplica a los paseos aleatorios (y al movimiento browniano) que no cruzan dicha línea, llamado principio de reflexión o método de reflexión . Este es un método para determinar el Números catalanes . He aquí otras dos aplicaciones:

El número de secuencias para que $A$ acaba por delante $10,200-9,800$ es $20,000 \choose 9,800$ . En cada secuencia que termina en $(10,200, 9,800)$ o bien $B$ nunca está a la cabeza, o hay algún punto en el que $B$ va en cabeza. Si $B$ gana la delantera, entonces si inviertes los ensayos posteriores, obtienes una secuencia que termina en $(9,799, 10,201)$ y esto es una biyección. Por lo tanto, el número de secuencias que terminan en $(10,200, 9,800)$ para que $B$ nunca estuvo a la cabeza es ${20,000 \choose 9,800} - {20,000 \choose 10,201} = {20,000 \choose 9,800} - {20,000 \choose 9,799} = {20,000 \choose 9,800} \frac{401}{10,201}.$ Por lo tanto, se puede ver que la oportunidad $B$ estaba por delante en algún momento, dado que terminas en $(10,200, 9,800),$ se trata de $96\%$ .

El número total de secuencias con cualquier punto final para que $A$ nunca se queda atrás es ${20,000 \choose 10,000} \approx 2^{20,000}/\sqrt{10,000 \pi}.$ Por lo tanto, la probabilidad de que $A$ nunca se queda atrás se trata de $\frac{1}{100 \sqrt{\pi}}$ . La probabilidad de que el plomo nunca cambia es de aproximadamente $\frac{1}{50 \sqrt{\pi}} \approx 1/89.$ El número medio de cambios de plomo es de $56$ .

0voto

Assembler Puntos 545

"es 88 veces más probable que una de las dos películas lidere a los 20.000 clientes que, por ejemplo, que el plomo se balancee continuamente"

En pocas palabras: una de las películas se adelanta. Tiene que hacerlo, ya que el primer cliente tiene que ir a A o a B. Por tanto, es tan probable que esa película mantenga su ventaja como que la pierda.

88 veces más probabilidades suena, bueno, improbable, hasta que recuerdas que el sube y baja perfecto es muy improbable. El gráfico de Respuesta de MansT mostrarlo gráficamente es fascinante, ¿verdad?

ASIDE: Personalmente, creo que será más de 88 veces - debido a <buzzword-alert> marketing viral </buzzword-alert> . Cada persona preguntará a otras lo que ha visto, y es más probable que visite la misma película. Lo harán incluso inconscientemente: es más probable que la gente se una a una larga cola para ir a ver algo. Es decir, en cuanto el azar entre los primeros clientes haya creado un líder, la psicología humana lo mantendrá como tal :-).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X