2 votos

Varianza en una secuencia binomial, cuando los éxitos están agrupados

Imagina una serie binaria generada aleatoriamente, por ejemplo

0011001111110101001.

Ahora imagina que no es totalmente aleatorio, sino que los 1s y los 0s tienden a venir más o menos en racimos, por ejemplo:

0000011111000000000000011111100000110001111111100111110000010000111111111111111111000000000000011111 (100 digits).

Quiero medir la proporción de 1s y 0s. En la secuencia anterior, resulta ser 1:1. Hay 50 0s y 50 1s.

Pero imagina que sólo puedo muestrear una parte de la secuencia, digamos 10 dígitos consecutivos. Si por casualidad selecciono un grupo de 10 ceros juntos, tendría que concluir que la secuencia es 100% ceros. A la inversa, si seleccionara un grupo de 10 unos juntos, tendría que concluir que la secuencia es 100% de unos. Normalmente, los 10 dígitos consecutivos me darán alguna fracción intermedia.

Para llevarlo al extremo, si tuviera 50 x 0 seguidos de 50 x 1, y estuviera muestreando 10 números consecutivos, casi siempre encontraría el 100% de 0 o el 100% de 1, por lo que la varianza es amplia.

Si los números son más bien 00100111101111010101.... (es decir, racimos de 2 o 3) entonces la proporción será mucho más parecida a 50:50 cada vez que se tome una muestra.

Estoy tratando de averiguar cómo puedo cuantificar la incertidumbre en mi relación 0s:1s. Sé que si los números fueran puramente aleatorios, podría simplemente utilizar la estadística binomial para calcular la desviación estándar del número de aciertos al elegir 10 números (creo que sqrt(2.5)).

Pero creo que el hecho de que mis números sean más propensos a agruparse complica las cosas. ¿Hay alguna forma de tener en cuenta la longitud de mis "racimos" y el número de números que estoy muestreando, para decir algo sobre la varianza de la fracción de 0s/1s que voy a medir?

1voto

Dipstick Puntos 4869

Si su patrón se repite exactamente (como has comentado), entonces estamos tratando con una población finita y es bastante fácil calcular las probabilidades. En ese caso, lo único que hay que hacer es enumerar todas las posibilidades y contar los casos en los que la proporción de $1$ es exactamente $50\%$ . Por ejemplo, si se utilizan subsecciones de longitud $10$ probabilidad de observar cinco $1$ es $0.27$ .

n <- length(x) # x the sequence coded as numeric vector
k <- 10

# using modulo since the sequence repeats itself
countOnes <- function(i) sum(x[(((i:(i+k-1))-1) %% n)+1])
allSeq <- vapply(1:n, countOnes, numeric(1))

que devuelve

> summary(allSeq)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      0       3       5       5       7      10
> mean(allSeq == round(k/2))
[1] 0.27

Sin embargo, si su secuencia no se repite exactamente, esta solución es tan válida como representativa sea su secuencia para toda la población. Además, en este caso pueden ser más apropiados otros métodos (por ejemplo, modelos de series temporales, o el tratamiento de su secuencia como una cadena de Markov, como se describe en mef etc.).

1voto

Luke Puntos 798

Puedes pensar en esto como una cadena de Markov de dos estados. Hay cuatro posibles secuencias de longitud dos: "00", "01", "10" y "11". Sea $q_0$ denota la probabilidad de "01" y deja que $q_1$ denotan la probabilidad de "10". (Entonces la probabilidad de "00" es $1-q_0$ y la probabilidad de "11" es $1-q_1$ .) Dadas estas probabilidades condicionales, la probabilidad incondicional de "0" es $r_0 = q_1/(q_0+q_1)$ . Si $q_0 = q_1$ entonces $r_0 = \frac12$ . Si $q_0 = 1-q_1$ entonces no hay dependencia del estado. La única manera de que ambas cosas se mantengan es que $q_0 = q_1 = \frac12$ .

Dado su ejemplo de 100 dígitos, hay 99 secuencias de longitud dos. Hay 42 "00", 8 "01", 7 "10" y 42 "11". Aunque hay el mismo número de 0 y 1, no hay el mismo número de transiciones: hay un "01" más que un "10". La probabilidad de $q_0$ es $q_0^{8}\,(1-q_0)^{42}$ y la probabilidad de $q_1$ es $q_1^{7}\,(1-q_1)^{42}$ .

Adopto un enfoque bayesiano de la inferencia. Como no tengo conocimientos especiales sobre $q_0$ o $q_1$ puse prejuicios uniformes en ambos $q_0$ y $q_1$ en el intervalo de la unidad. (El conocimiento que se tiene sobre $q_0$ y $q_1$ antes de ver los datos se pueden incorporar a sus distribuciones previas). Entonces las distribuciones posteriores son $$ q_0|y \sim \textsf{Beta}(9, 43) $$ y $$ q_1|y \sim \textsf{Beta}(8, 43) $$ donde $y$ denota sus datos. Ahora es fácil hacer sorteos de $r_0$ de la parte posterior. Simplemente dibuje $q_0$ y $q_1$ a partir de sus respectivas posteriors y calcular $r_0$ de esos sorteos. Haga esto muchas veces. Estos sorteos de $r_0$ proporcionan una aproximación a su distribución posterior.

Tomé $10^6$ sorteos y obtuvo una media de 0,475 y una desviación estándar de 0,109. Además, el 90% de la probabilidad estaba entre 0,296 y 0,655. Aquí hay un histograma:

histogram of draws

Supongamos que los datos consisten en una secuencia de 10 ceros. Entonces tenemos $$ q_0|y \sim \textsf{Beta}(1, 10) $$ y $$ q_1|y \sim \textsf{Beta}(1, 1) $$ La media es de 0,802 y el 90% de la probabilidad es superior a 0,523. El histograma tiene el siguiente aspecto:

histogam of draws

Así que este enfoque tiene en cuenta las preocupaciones que ha expresado.

Editar

Pensando un poco más en esto, me di cuenta de que debería tener en cuenta la probabilidad "incondicional" del primer elemento de la secuencia. En el ejemplo dado por el OP, el primer elemento es "0", cuya probabilidad incondicional es $q_1/(q_0+q_1)$ . Multiplicando esto por las probabilidades de las transiciones se obtiene la probabilidad totalmente simétrica: $$ \frac{q_0^{8}\,(1-q_0)^{42}\,q_1^{8}\,(1-q_1)^{42}}{q_0+q_1}. $$ Ahora hay una dependencia debido al denominador, por lo que $q_0$ y $q_1$ deben extraerse conjuntamente de la parte posterior. Con una prioridad plana sobre el cuadrado de la unidad, la posterior es proporcional a la probabilidad. Las extracciones se pueden hacer a partir de la posterior utilizando el método de aceptación-rechazo. (Puede haber formas más eficientes, pero esto funciona.) Tomé $10^5$ sorteos. La media es 0,500 y la desviación estándar es 0,106. (El histograma es prácticamente igual que el anterior).

Para el caso de 10 ceros, podemos hacer el mismo ajuste a la probabilidad, produciendo $$ \frac{(1-q_0)^{9}\,q_1}{q_0+q_1}. $$ En este caso, la media posterior es de 0,852 y el 90% de la probabilidad es superior a 0,66. De nuevo, el histograma es muy similar al anterior.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X