Loading [MathJax]/extensions/TeX/mathchoice.js

24 votos

K aciertos en los ensayos de Bernoulli, o el experimento cinematográfico de George Lucas

Ahora estoy leyendo "El andar del borracho" y no consigo entender ni una sola de sus historias.

Ahí va:

Imagina que George Lucas hace una nueva película de Star Wars y en un mercado de pruebas decide hacer un experimento loco. Estrena la misma película con dos títulos: "Star Wars: Episodio A" y "Star Wars: Episodio B". Cada película tiene su propia campaña de marketing y calendario de distribución, con los detalles correspondientes idénticos salvo que los tráilers y anuncios de una película dicen "Episodio A" y los de la otra, "Episodio B".

_

Ahora lo convertimos en un concurso. ¿Qué película será más popular? Digamos que nos fijamos en los primeros 20.000 espectadores y registramos la película que eligen ver (ignorando a los fans acérrimos que irán a ver las dos y luego insistirán en que había diferencias sutiles pero significativas entre las dos). Como las películas y sus campañas de marketing son idénticas, podemos modelar matemáticamente el juego de esta manera: Imagine que pone a todos los espectadores en fila y lanza una moneda al aire para cada espectador por turno. Si la moneda sale cara, el espectador ve el Episodio A; si sale cruz, el Episodio B. Como la moneda tiene las mismas posibilidades de salir cara o cruz, se podría pensar que en esta guerra experimental de taquilla cada película debería ir en cabeza aproximadamente la mitad de las veces.

_

Pero las matemáticas del azar dicen lo contrario: el número más probable de cambios en el liderazgo es 0, y es 88 veces más probable que una de las dos películas lidere a lo largo de los 20.000 clientes que, por ejemplo, que el liderazgo oscile continuamente"

Yo, probablemente de forma incorrecta, atribuyo esto a un simple problema de ensayos de Bernoulli, y debo decir que no veo por qué el líder no se balancea por término medio. ¿Alguien me lo puede explicar?

23voto

phloopy Puntos 4285

Aquí tienes un código R para simular el experimento de George Lucas:

B<-20000
steps<-2*rbinom(B,1,0.5)-1
rw<-cumsum(steps)
ts.plot(rw,xlab="Number of customers",ylab="Difference")

Ejecutándolo, obtenemos imágenes como estas:

enter image description here

donde la diferencia de entradas vendidas entre A y B está en el eje y.

A continuación, ejecutamos 10,000 tales experimentos simulados de George Lucas. Para cada experimento, calculamos la proporción de tiempo empleado 0 es decir, la proporción de espectadores en fila para los que el número de entradas vendidas para A es mayor o igual que el número de entradas vendidas para B. Intuitivamente, se diría que esta proporción debería ser de aproximadamente 1/2 . He aquí un histograma de los resultados:

enter image description here

La proporción es 1/2 por término medio en el sentido de que el valor esperado es 1/2 pero 1/2 es un valor poco probable en comparación con valores cercanos a 0 o 1 . En la mayoría de los experimentos, las diferencias son positivas o negativas la mayor parte del tiempo.

La curva roja es la función de densidad de la distribución arcoseno, también denominada Beta(1/2,1/2) distribución . Lo que se ilustra en la imagen anterior es un teorema conocido como el primer ley de arscine para paseos aleatorios que dice que a medida que el número de pasos del paseo aleatorio simétrico simple se aproxima a infinito, la distribución de la proporción de tiempo empleado por encima de 0 tiende a la distribución arcoseno. Una referencia estándar para este resultado es la Sección III.4 de Introducción a la teoría de la probabilidad y sus aplicaciones , Vol 1 por William Feller.


El código R para el estudio de simulación es

prop<-vector(length=10000)
for(i in 1:10000)
{
    steps<-2*rbinom(B,1,0.5)-1
    rw<-cumsum(steps)
    prop[i]<-sum(rw>=0)/B
}
hist(prop,freq=FALSE,xlab="Proportion of time spent above 0",main="George Lucas experiment")
curve(dbeta(x,1/2,1/2),0,1,col=2,add=TRUE)

11voto

matt Puntos 11

Tanto A como B tienen un 1/2 posibilidad de estar por delante después de cualquier número impar de ensayos t (impar para evitar empates). Sin embargo, estos acontecimientos están relacionados. El que esté por delante después de t=1 tiene un 3/4 oportunidad de salir adelante tras t=3 y esto se vuelve más dramático a medida que t aumenta.

El número medio de cambios de pista crece hasta el infinito a medida que aumenta el número total de pruebas, pero lentamente. Un paseo aleatorio sin deriva en 1 es recurrente, por lo que, por muy a la cabeza que estés, la probabilidad de que empates en algún momento en el futuro (con un número infinito de pruebas) es 1 . Sin embargo, aunque sólo lleves uno de ventaja, el tiempo previsto hasta que vuelvas a estar empatado es infinito. Existe una gran probabilidad de que se tarde mucho tiempo en volver al empate.

Dicho esto, el modo se utiliza para exagerar el efecto . De hecho, sería una sorpresa que no se produjera ningún cambio de liderazgo en 20,000 ensayos.

Si quieres calcular algunas de las probabilidades, tienes que contar algo parecido a paseos reticulares que no cruzan la diagonal. Existe un gran método combinatorio que se aplica a los paseos aleatorios (y al movimiento browniano) que no cruzan dicha línea, llamado principio de reflexión o método de reflexión . Este es un método para determinar el Números catalanes . He aquí otras dos aplicaciones:

El número de secuencias para que A acaba por delante 10,2009,800 es 20,000 \choose 9,800 . En cada secuencia que termina en (10,200, 9,800) o bien B nunca está a la cabeza, o hay algún punto en el que B va en cabeza. Si B gana la delantera, entonces si inviertes los ensayos posteriores, obtienes una secuencia que termina en (9,799, 10,201) y esto es una biyección. Por lo tanto, el número de secuencias que terminan en (10,200, 9,800) para que B nunca estuvo a la cabeza es {20,000 \choose 9,800} - {20,000 \choose 10,201} = {20,000 \choose 9,800} - {20,000 \choose 9,799} = {20,000 \choose 9,800} \frac{401}{10,201}. Por lo tanto, se puede ver que la oportunidad B estaba por delante en algún momento, dado que terminas en (10,200, 9,800), se trata de 96\% .

El número total de secuencias con cualquier punto final para que A nunca se queda atrás es {20,000 \choose 10,000} \approx 2^{20,000}/\sqrt{10,000 \pi}. Por lo tanto, la probabilidad de que A nunca se queda atrás se trata de \frac{1}{100 \sqrt{\pi}} . La probabilidad de que el plomo nunca cambia es de aproximadamente \frac{1}{50 \sqrt{\pi}} \approx 1/89. El número medio de cambios de plomo es de 56 .

0voto

Assembler Puntos 545

"es 88 veces más probable que una de las dos películas lidere a los 20.000 clientes que, por ejemplo, que el plomo se balancee continuamente"

En pocas palabras: una de las películas se adelanta. Tiene que hacerlo, ya que el primer cliente tiene que ir a A o a B. Por tanto, es tan probable que esa película mantenga su ventaja como que la pierda.

88 veces más probabilidades suena, bueno, improbable, hasta que recuerdas que el sube y baja perfecto es muy improbable. El gráfico de Respuesta de MansT mostrarlo gráficamente es fascinante, ¿verdad?

ASIDE: Personalmente, creo que será más de 88 veces - debido a <buzzword-alert> marketing viral </buzzword-alert> . Cada persona preguntará a otras lo que ha visto, y es más probable que visite la misma película. Lo harán incluso inconscientemente: es más probable que la gente se una a una larga cola para ir a ver algo. Es decir, en cuanto el azar entre los primeros clientes haya creado un líder, la psicología humana lo mantendrá como tal :-).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X