5 votos

Biología: Cómo encontrar la probabilidad de generar aleatoriamente varias idénticas secuencialmente establece

Si puedo generar aleatoriamente una subcadena (por ejemplo, "ATGCAGC") con igual probabilidad (1/X, donde X=4) para cada dígito con la longitud (L) dígitos: ¿Cuál es la fórmula para hallar la probabilidad (P) de forma aleatoria la generación de la secuencia (T) veces, da un total de la longitud de la cadena (N)?

Ejemplo: Dado "ATGCAGC" cadena de longitud L=7, el número de caracteres posibles de X=4, con igual probabilidad de ser generados aleatoriamente 1/X.

En un caso donde N caracteres se generan, ¿cuál es la probabilidad de que exactamente una subcadena con la longitud L se producirá T veces?

Si tengo al azar, de forma secuencial generado N=7000 caracteres, ¿cuál es la probabilidad de que cualquier exacta de la subcadena de longitud L=7 "ATGCAGC" ocurrirá T=2,3,4... tiempos?

P es mi variable dependiente. L, T, N, X son independientes.

En términos de dados:

Ejemplo: Si yo secuencialmente un rollo X=6 colindado mueren N=7000 veces: ¿Qué es el P=probabilidad de que voy a tirar el dado de forma secuencial la misma (1,4,6,5,3,2,3), con la secuencia de longitud L=7 para T=2 secuencialmente idénticos ocurrencias en el N=7000 secuencial de los rollos de una sola morir?

¿Cuál es la probabilidad de 7000 rollos voy a tener alguna de las 2 pistas de 7 tiros que tienen una exacta secuencial partido? Ejemplo: (1,4,6,5,3,2,3 en rollos 201-207) y (1,4,6,5,3,2,3) en rollos 5001-5007. Podría ser cualquier número de (T) apariciones, en cualquier rollo de los números en (N) total de morir rollos.

Estoy especialmente de la solución para que la probabilidad de que, dado los valores de las variables independientes. La superposición o no superposición de subcadenas o ambos son excelentes.

Mi pregunta está relacionada con la (¿cuantas veces una secuencia consecutiva de lanza aparecen al azar si yo me tiro un cuatro colindado mueren N veces?)

1voto

gar Puntos 3883

La cuestión de la probabilidad de ocurrencia de un patrón de repetición exactamente $T$ veces no tiene una fórmula simple. He obtenido la probabilidad de que el patrón `ATGCAGC"

Un grafo dirigido se utiliza para realizar un seguimiento de los patrones. Para $T=1$ sí es grande:

\begin{align*} A_1 &= \left(\begin{array}{rrrrrrrrrrrrrr} 3 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 2 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 2 & 1 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 2 & 1 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 3 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 1 & 1 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 2 & 1 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 3 & 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 3 & 0 & 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 1 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 0 & 0 & 0 & 0 & 0 \end{array}\right) \end{align*}

para $T=2$,

\begin{align*} A_2 &= \left(\begin{array}{rrrrrrrrrrrrrrrrrrrrr} 3 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 2 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 2 & 1 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 2 & 1 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 3 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 1 & 1 & 1 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 2 & 1 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 3 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 3 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 1 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 3 & 1 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 1 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 3 & 0 & 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1 & 1 & 1 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 2 & 1 & 0 & 0 & 0 & 0 & 0 \end{array}\right) \end{align*}

Que el patrón de la matriz continúa por $T=3,4,\ldots$, y las entradas son de interés de los últimos 7 entradas de la primera fila en $A^{7000}$. La adición de esas y dividiendo por $4^{7000}$ da la necesaria probabilidades. A continuación son las probabilidades obtenidas en la informática:

\begin{align*} \begin{array}{|l|c|}\hline T & P \\\hline 1 & 0.278730925452149 \\ 2 & 0.059428898295207 \\ 3 & 0.008431600808656 \\ 4 & 0.000895516555326\\ \hline \end{array} \end{align*}

0voto

satish ramanathan Puntos 4892

Muy Crudo método:

Si hay caracteres X, no puede ser $X^L$ diferente número de maneras que usted puede generar una secuencia con cada una de las X tiene $\frac{1}{X}$ de probabilidad. A continuación, cada secuencia es igualmente probable.

Por lo tanto la probabilidad de que una secuencia aparecería de la $X^L$ diferentes formas es $\frac{1}{x^L}$.

A continuación, el número total de caracteres N que se generan se dividirá en $[\frac{N}{L}]$ bloques de los subcadenas.

La probabilidad de que una subcadena distinta de la deseada sucede en cualquier bloque es $(1-\frac{1}{X^L})$.

Ahora definir la variable aleatoria T, el número de veces que dicha subcadena debe ocurrir donde t = 0,1,... [N/L].

Tomar un caso cuando T = 2, esta subcadena deben ocurrir dos veces y el resto de la $[\frac{N}{L}] - T$ bloques deben ser otros subcadenas de longitud L distinta a la deseada para el cual se calculó la probabilidad de que un par de pasos anteriores. Para N = 100, L = 5, tendrá 20 bloques con 5 cadenas de cada uno. Compruebe el deseado subcadena en cada uno de estos bloques. A continuación, mayús 1 carácter y verificación de 2-6,7-11,... y de nuevo cambio de 1 carácter de 3 a 8, 9 a 12,.... Tendrá que hacer esto hasta el turno 5 veces luego de llegar a la secuencia original de 6-10,11-15,... Ahora se han escaneado todos los N caracteres en 20 bloques de cinco veces para cubrir todos los consecutivos de las apariencias. Una vez que se forma en la que podría acomodar es multiplicar (la probabilidad de encontrar la subcadena) por L que en este caso es 5.

Ahora podemos asumir con seguridad que estas apariencias de subcadenas a ser una Distribución Binomial.

Así

$$P( T = t) =\left({[\frac{N}{L}]\choose t} {(L*\frac{1}{x^L})}^t {(1-L*\frac{1}{X^L})}^{[\frac{N}{L}]-t}\right)$$

Espero que esto le da una buena aproximación para la tarea que se han establecido.

Gracias

Satish

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X