Imagina una serie binaria generada aleatoriamente, por ejemplo
0011001111110101001.
Ahora imagina que no es totalmente aleatorio, sino que los 1s y los 0s tienden a venir más o menos en racimos, por ejemplo:
0000011111000000000000011111100000110001111111100111110000010000111111111111111111000000000000011111 (100 digits).
Quiero medir la proporción de 1s y 0s. En la secuencia anterior, resulta ser 1:1. Hay 50 0s y 50 1s.
Pero imagina que sólo puedo muestrear una parte de la secuencia, digamos 10 dígitos consecutivos. Si por casualidad selecciono un grupo de 10 ceros juntos, tendría que concluir que la secuencia es 100% ceros. A la inversa, si seleccionara un grupo de 10 unos juntos, tendría que concluir que la secuencia es 100% de unos. Normalmente, los 10 dígitos consecutivos me darán alguna fracción intermedia.
Para llevarlo al extremo, si tuviera 50 x 0 seguidos de 50 x 1, y estuviera muestreando 10 números consecutivos, casi siempre encontraría el 100% de 0 o el 100% de 1, por lo que la varianza es amplia.
Si los números son más bien 00100111101111010101.... (es decir, racimos de 2 o 3) entonces la proporción será mucho más parecida a 50:50 cada vez que se tome una muestra.
Estoy tratando de averiguar cómo puedo cuantificar la incertidumbre en mi relación 0s:1s. Sé que si los números fueran puramente aleatorios, podría simplemente utilizar la estadística binomial para calcular la desviación estándar del número de aciertos al elegir 10 números (creo que sqrt(2.5)).
Pero creo que el hecho de que mis números sean más propensos a agruparse complica las cosas. ¿Hay alguna forma de tener en cuenta la longitud de mis "racimos" y el número de números que estoy muestreando, para decir algo sobre la varianza de la fracción de 0s/1s que voy a medir?