¡Ahá, excelente pregunta!
También habría propuesto ingenuamente una curva logística en forma de S, pero es evidente que no se ajusta bien. Por lo que sé, el aumento constante es una aproximación porque YouTube cuenta las visualizaciones únicas (una por dirección IP), por lo que no puede haber más visualizaciones que ordenadores.
Podríamos utilizar un modelo epidemiológico en el que las personas tienen diferente susceptibilidad. Para simplificarlo, podríamos dividirlo en el grupo de alto riesgo (digamos los niños) y el grupo de bajo riesgo (digamos los adultos). Llamémosle $x(t)$ la proporción de niños "infectados" y $y(t)$ la proporción de adultos "infectados" en el momento $t$ . Llamaré $X$ el número (desconocido) de individuos en el grupo de alto riesgo y $Y$ el número (también desconocido) de individuos en el grupo de bajo riesgo.
$$\dot{x}(t) = r_1(x(t)+y(t))(X-x(t))$$ $$\dot{y}(t) = r_2(x(t)+y(t))(Y-y(t)),$$
donde $r_1 > r_2$ . No sé cómo resolver ese sistema (tal vez @EpiGrad sí lo sepa), pero viendo tus gráficos, podríamos hacer un par de suposiciones simplificadoras. Como el crecimiento no se satura, podemos suponer que $Y$ es muy grande y $y$ es pequeño, o
$$\dot{x}(t) = r_1x(t)(X-x(t))$$ $$\dot{y}(t) = r_2x(t),$$
que predice un crecimiento lineal una vez que el grupo de alto riesgo está completamente infectado. Nótese que con este modelo no hay razón para suponer $r_1 > r_2$ Al contrario, porque el gran término $Y-y(t)$ está ahora subsumida en $r_2$ .
Este sistema resuelve a
$$x(t) = X \frac{C_1e^{Xr_1t}}{1 + C_1e^{Xr_1t}}$$ $$y(t) = r_2 \int x(t)dt + C_2 = \frac{r_2}{r_1} \log(1+C_1e^{Xr_1t})+C_2,$$
donde $C_1$ y $C_2$ son constantes de integración. La población total "infectada" es entonces $x(t) + y(t)$ que tiene 3 parámetros y 2 constantes de integración (condiciones iniciales). No sé lo fácil que sería ajustar...
Actualización: jugando con los parámetros, no pude reproducir la forma de la curva superior con este modelo, la transición de $0$ à $600,000,000$ es siempre más nítida que la anterior. Siguiendo con la misma idea, podríamos volver a suponer que hay dos tipos de usuarios de Internet: los "compartidores" $x(t)$ y los "solitarios" $y(t)$ . Los que comparten se contagian entre sí, los solitarios se topan con el vídeo por casualidad. El modelo es
$$\dot{x}(t) = r_1x(t)(X-x(t))$$ $$\dot{y}(t) = r_2,$$
y resuelve a
$$x(t) = X \frac{C_1e^{Xr_1t}}{1 + C_1e^{Xr_1t}}$$ $$y(t) = r_2 t+C_2.$$
Podríamos suponer que $x(0) = 1$ , es decir que sólo hay un paciente 0 en $t=0$ , lo que da como resultado $C_1 = \frac{1}{X-1} \approx \frac{1}{X}$ porque $X$ es un número grande. $C_2 = y(0)$ por lo que podemos suponer que $C_2 = 0$ . Ahora sólo los 3 parámetros $X$ , $r_1$ y $r_2$ determinar la dinámica.
Incluso con este modelo, parece que la inflexión es muy brusca, no es un buen ajuste por lo que el modelo debe estar equivocado. Esto hace que el problema sea muy interesante. Como ejemplo, la figura de abajo fue construida con $X = 600,000,000$ , $r_1 = 3.667 \cdot 10^{-10}$ y $r_2 = 1,000,000$ .
Actualización: De los comentarios he deducido que Youtube cuenta las visualizaciones (a su manera secreta) y no las IPs únicas, lo que supone una gran diferencia. De vuelta a la mesa de dibujo.
Para simplificar, supongamos que los espectadores están "infectados" por el vídeo. Vuelven a verlo regularmente, hasta que eliminan la infección. Uno de los modelos más sencillos es el SIR (Susceptible-Infectado-Resistente) que es el siguiente:
$$\dot{S}(t) = -\alpha S(t)I(t)$$ $$\dot{I}(t) = \alpha S(t)I(t) - \beta I(t)$$ $$\dot{R}(t) = \beta I(t)$$
donde $\alpha$ es la tasa de infección y $\beta$ es la tasa de eliminación. El recuento total de vistas $x(t)$ es tal que $\dot{x}(t) = kI(t)$ , donde $k$ es la media de visitas diarias por individuo infectado.
En este modelo, el recuento de vistas comienza a aumentar bruscamente algún tiempo después del inicio de la infección, lo que no ocurre en los datos originales, quizá porque los vídeos también se propagan de forma no viral (o meme). No soy experto en estimar los parámetros del modelo SIR. Sólo estoy jugando con diferentes valores, esto es lo que se me ocurrió (en R).
S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
dS = -a*I*S;
dI = a*I*S - b*I;
S = S+dS;
I = I+dI;
views[i+1] = views[i] + k*I
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)
Evidentemente, el modelo no es perfecto, y podría complementarse de muchas maneras sólidas. Este esbozo muy aproximado predice mil millones de visitas en algún momento de marzo de 2013, veamos...
23 votos
+1 por conseguir que la conversación en la mesa pase de Gangnam a las estadísticas. ¡Necesitamos gente como tú!
4 votos
Lo que puedo añadir a la discusión, que espero sea útil para gui11aume u otros que estén escribiendo ecuaciones para intentar modelar esto, es que en el ejemplo de KONY, la agrupación geográfica fue un aspecto significativo de la propagación viral. El hecho de que PSY sea un fenómeno coreano y luego asiático primero, es una parte importante de la historia. No estoy seguro de cómo se modelaría esto, pero podría ser una pista.
0 votos
Los datos relativos a las visualizaciones, los comentarios, los "me gusta" y los "no me gusta" del vídeo durante el mes de noviembre de 2012, pueden consultarse en docs.google.com/spreadsheet/