75 votos

Modelo para predecir el número de visualizaciones en Youtube del Gangnam Style

El vídeo musical de PSY "Gangnam style" es popular, después de poco más de 2 meses tiene unos 540 millones de espectadores. Me enteré de esto por mis hijos preadolescentes en la cena de la semana pasada y pronto la discusión fue en la dirección de si era posible hacer algún tipo de predicción de cuántos espectadores habrá en 10-12 días y cuándo(/si) la canción pasará de 800 millones de espectadores o mil millones de espectadores.

Aquí está la imagen del número de espectadores desde que se publicó: PSY OGS

Aquí está la imagen del número de espectadores de los vídeos musicales No1 "Justin Biever-Baby" y No2 "Eminem - Love the way you lie", que llevan mucho más tiempo. Justin Eminem

Mi primer intento de razonar sobre el modelo fue que debería ser una curva en S, pero esto no parece ajustarse a las canciones nº1 y nº2 y tampoco se ajusta a que no haya límite en el número de visualizaciones que puede tener el vídeo musical, sólo un crecimiento más lento.

Así que mi pregunta es: ¿qué tipo de modelo debo utilizar para predecir el número de espectadores del vídeo musical?

23 votos

+1 por conseguir que la conversación en la mesa pase de Gangnam a las estadísticas. ¡Necesitamos gente como tú!

4 votos

Lo que puedo añadir a la discusión, que espero sea útil para gui11aume u otros que estén escribiendo ecuaciones para intentar modelar esto, es que en el ejemplo de KONY, la agrupación geográfica fue un aspecto significativo de la propagación viral. El hecho de que PSY sea un fenómeno coreano y luego asiático primero, es una parte importante de la historia. No estoy seguro de cómo se modelaría esto, pero podría ser una pista.

0 votos

Los datos relativos a las visualizaciones, los comentarios, los "me gusta" y los "no me gusta" del vídeo durante el mes de noviembre de 2012, pueden consultarse en docs.google.com/spreadsheet/

40voto

JMW.APRN Puntos 21

¡Ahá, excelente pregunta!

También habría propuesto ingenuamente una curva logística en forma de S, pero es evidente que no se ajusta bien. Por lo que sé, el aumento constante es una aproximación porque YouTube cuenta las visualizaciones únicas (una por dirección IP), por lo que no puede haber más visualizaciones que ordenadores.

Podríamos utilizar un modelo epidemiológico en el que las personas tienen diferente susceptibilidad. Para simplificarlo, podríamos dividirlo en el grupo de alto riesgo (digamos los niños) y el grupo de bajo riesgo (digamos los adultos). Llamémosle $x(t)$ la proporción de niños "infectados" y $y(t)$ la proporción de adultos "infectados" en el momento $t$ . Llamaré $X$ el número (desconocido) de individuos en el grupo de alto riesgo y $Y$ el número (también desconocido) de individuos en el grupo de bajo riesgo.

$$\dot{x}(t) = r_1(x(t)+y(t))(X-x(t))$$ $$\dot{y}(t) = r_2(x(t)+y(t))(Y-y(t)),$$

donde $r_1 > r_2$ . No sé cómo resolver ese sistema (tal vez @EpiGrad sí lo sepa), pero viendo tus gráficos, podríamos hacer un par de suposiciones simplificadoras. Como el crecimiento no se satura, podemos suponer que $Y$ es muy grande y $y$ es pequeño, o

$$\dot{x}(t) = r_1x(t)(X-x(t))$$ $$\dot{y}(t) = r_2x(t),$$

que predice un crecimiento lineal una vez que el grupo de alto riesgo está completamente infectado. Nótese que con este modelo no hay razón para suponer $r_1 > r_2$ Al contrario, porque el gran término $Y-y(t)$ está ahora subsumida en $r_2$ .

Este sistema resuelve a

$$x(t) = X \frac{C_1e^{Xr_1t}}{1 + C_1e^{Xr_1t}}$$ $$y(t) = r_2 \int x(t)dt + C_2 = \frac{r_2}{r_1} \log(1+C_1e^{Xr_1t})+C_2,$$

donde $C_1$ y $C_2$ son constantes de integración. La población total "infectada" es entonces $x(t) + y(t)$ que tiene 3 parámetros y 2 constantes de integración (condiciones iniciales). No sé lo fácil que sería ajustar...

Actualización: jugando con los parámetros, no pude reproducir la forma de la curva superior con este modelo, la transición de $0$ à $600,000,000$ es siempre más nítida que la anterior. Siguiendo con la misma idea, podríamos volver a suponer que hay dos tipos de usuarios de Internet: los "compartidores" $x(t)$ y los "solitarios" $y(t)$ . Los que comparten se contagian entre sí, los solitarios se topan con el vídeo por casualidad. El modelo es

$$\dot{x}(t) = r_1x(t)(X-x(t))$$ $$\dot{y}(t) = r_2,$$

y resuelve a

$$x(t) = X \frac{C_1e^{Xr_1t}}{1 + C_1e^{Xr_1t}}$$ $$y(t) = r_2 t+C_2.$$

Podríamos suponer que $x(0) = 1$ , es decir que sólo hay un paciente 0 en $t=0$ , lo que da como resultado $C_1 = \frac{1}{X-1} \approx \frac{1}{X}$ porque $X$ es un número grande. $C_2 = y(0)$ por lo que podemos suponer que $C_2 = 0$ . Ahora sólo los 3 parámetros $X$ , $r_1$ y $r_2$ determinar la dinámica.

Incluso con este modelo, parece que la inflexión es muy brusca, no es un buen ajuste por lo que el modelo debe estar equivocado. Esto hace que el problema sea muy interesante. Como ejemplo, la figura de abajo fue construida con $X = 600,000,000$ , $r_1 = 3.667 \cdot 10^{-10}$ y $r_2 = 1,000,000$ .

growth model of Gangnam style

Actualización: De los comentarios he deducido que Youtube cuenta las visualizaciones (a su manera secreta) y no las IPs únicas, lo que supone una gran diferencia. De vuelta a la mesa de dibujo.

Para simplificar, supongamos que los espectadores están "infectados" por el vídeo. Vuelven a verlo regularmente, hasta que eliminan la infección. Uno de los modelos más sencillos es el SIR (Susceptible-Infectado-Resistente) que es el siguiente:

$$\dot{S}(t) = -\alpha S(t)I(t)$$ $$\dot{I}(t) = \alpha S(t)I(t) - \beta I(t)$$ $$\dot{R}(t) = \beta I(t)$$

donde $\alpha$ es la tasa de infección y $\beta$ es la tasa de eliminación. El recuento total de vistas $x(t)$ es tal que $\dot{x}(t) = kI(t)$ , donde $k$ es la media de visitas diarias por individuo infectado.

En este modelo, el recuento de vistas comienza a aumentar bruscamente algún tiempo después del inicio de la infección, lo que no ocurre en los datos originales, quizá porque los vídeos también se propagan de forma no viral (o meme). No soy experto en estimar los parámetros del modelo SIR. Sólo estoy jugando con diferentes valores, esto es lo que se me ocurrió (en R).

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

Extrapolation of the views of the Gangnam style Youtube video

Evidentemente, el modelo no es perfecto, y podría complementarse de muchas maneras sólidas. Este esbozo muy aproximado predice mil millones de visitas en algún momento de marzo de 2013, veamos...

6 votos

(+1) Como primera aproximación. Hay que tener en cuenta que la política de Youtube para el recuento de visitas no se entiende bien, ya que no han hecho público su algoritmo. Sólo dicen: "Un visionado se cuenta siempre que alguien ve un vídeo en YouTube. No somos más específicos que esto para evitar intentos de inflar artificialmente los recuentos de vistas". (ver) .

0 votos

@Procrastinator Gracias por el consejo. Eso hace que sea muy difícil de modelar entonces...

0 votos

@gui11aume, me gusta el modelo de los grupos de alto y bajo riesgo, pero parece que el modelo aumenta demasiado al final. Inspirado en tu modelo, tal vez la fase de "contagio" termine/finalice y luego el número de visualizaciones sea proporcional a la visualización general

5voto

icelava Puntos 548

Probablemente, el modelo más común para prever la adopción de nuevos productos es el Modelo de difusión de Bass que, al igual que la respuesta de @gui11aume, modela las interacciones entre los usuarios actuales y los potenciales. La adopción de nuevos productos es un tema bastante candente en la previsión, la búsqueda de este término debería arrojar toneladas de información (que lamentablemente no tengo tiempo de ampliar aquí...).

0 votos

Sí, también es un modelo candidato. Sin embargo, parece que asume que sólo se puede ser usuario una vez. En este caso, se ve el vídeo varias veces si se está "infectado".

1 votos

@FredrikD: entendido. (Aunque personalmente no conseguí sentarme ni siquiera durante un solo "uso" de este "producto"...) Debería haber generalizaciones de Bass para tratar esto. (Shameless plug:) El año que viene Simposio Internacional de Previsión es en Seúl, así que cualquiera debería considerar la posibilidad de presentar allí su modelo de previsión favorito de Gangnam ;-)

4voto

ripper234 Puntos 39314

Yo miraría el Curva de crecimiento de Gompertz .

La curva de Gompertz es una fórmula exponencial doble de 3 parámetros (a,b,c) con el tiempo, T, como variable independiente.

Código R:

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

Se sabe que la fórmula de crecimiento de Gompertz es buena para describir muchos fenómenos del ciclo vital, en los que al principio el crecimiento es acelerado y luego disminuye, dando lugar a una curva sigmoidea asimétrica cuya derivada es más pronunciada a la izquierda que a la derecha del pico. Por ejemplo, la número total de artículos en Wikipedia que también es de naturaleza viral, ha seguido una curva de crecimiento de Gompertz (con ciertos parámetros a,b,c) durante muchos años con gran precisión.

Chart of the Gompertz curves: total size and its growth rate derivative

Editar: Si la curva de Gompertz no es suficiente para aproximarse a la forma que busca, puede añadir parámetros d y θ como se describe en La distribución de Weibull Gompertz generalizada expuesta . Tenga en cuenta que este documento utiliza x en lugar de t para el parámetro de tiempo independiente. Curiosamente, Wikipedia también modificó su mejor aproximación añadiendo un único cuarto parámetro d para dar cuenta de un divergencia de la predicción del valor real después de 2012 . La fórmula modificada de la curva de Gompertz de 4 parámetros es:

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

La función Gompertz recibe su nombre de Benjamin Gompertz (1779-1865) El primer matemático que lo describió fue un contemporáneo de Gauss (sólo dos años menor que él).

0 votos

Buen punto. Sin embargo, lo que cuestiona el modelo es que no parece ser un límite (véase el nº 1 y el nº 2). Es decir, el factor a del modelo también aumenta con el tiempo.

0 votos

Yo desafiaría el "No parece haber un límite". ¿Puede el Gangnam Style llegar a 1B? 10B? 100B? vistas? eventualmente la tasa de crecimiento se acerca a cero y la curva se estanca. Esto es difícil de ver cuando se está en la fase de alto crecimiento, como estamos ahora con Gangnam, pero sólo hay que esperar unos años y ganará Gompertz :) El truco es, por supuesto, averiguar los parámetros (a,b,c) adecuados para este caso concreto.

2 votos

Aquí hay una referencia para estimar los parámetros del modelo Gompertz, ver weibull.com/RelGrowthWeb/

4voto

Sami Kujala Puntos 60

Creo que hay que separar fenómenos como el Gangnam Style, que debe gran parte de su popularidad a ser un meme/algo viral, de Justin Bieber y Eminem, que son grandes artistas por derecho propio y que también se difundirían ampliamente en un entorno tradicional - JB o Eminem también venderían muchos singles, no estoy seguro de que PSY lo hiciera.

0 votos

Buen punto. Después de leer y escuchar las entrevistas de PSY y el equipo detrás de "OGS" (Oppa Gangnam Style), está claro que saben muy bien qué botón apretar para crear algo viral. A través de un análisis de imágenes de la imagen de vistas de arriba, parece que el número de vistas es lineal hasta unos 90 días después del lanzamiento, entonces PSY aparece en el Gran Premio de Corea y el número de vistas por unidad de tiempo aumenta.

0 votos

- ¿y en qué se diferencian estas dos clases de los "clásicos", canciones que presumiblemente eran muy conocidas cuando se subieron por primera vez a YouTube (estoy pensando en David Bowie)?

2voto

5 votos

Bienvenido al sitio, @ProfRoy47. ¿Te importaría elaborar un poco este post? No está claro que esto sea realmente una respuesta a la pregunta del PO / que se sostenga por sí mismo. Por otro lado, no encajaría como un comentario, y creo que tiene las características de una contribución útil a este hilo. Nuestro PREGUNTAS FRECUENTES tiene un debate sobre las respuestas en el CV, que puede ser útil para usted.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X