4 votos

¿Cuál es la distribución de probabilidad de un par de bases del genoma?

En el genoma tenemos 4 nucleótidos (A,T,C,G). Ahora bien, dada una secuencia de nucleótidos como

AGT CG TA CG ATCT CG ,

podemos contar el número de pares "CG". En este caso son 3. (contamos todos los pares así, ACT tiene pares AC y CT)

Ahora me gustaría probar la significación de mis resultados, o qué probabilidad hay de que obtenga 3 pares de CG si esa secuencia fuera aleatoria. Podría comprobarlo con una prueba de permutación, pero eso no es del todo preciso y también podría llevar tiempo.

Ahora la pregunta: ¿Cuál es la distribución de probabilidad de ese par CG, dada la longitud de la secuencia y el recuento de cada elemento (A,C,T,G), de modo que pueda calcular la probabilidad exacta de que mi resultado pueda proceder de una secuencia aleatoria.

4voto

JiminyCricket Puntos 143

Voy a suponer que la pregunta que se pretende hacer es ésta: Dada la longitud de una secuencia y los recuentos de los cuatro nucleótidos en esta secuencia (en contraposición a su frecuencia en las secuencias en general), ¿cuál es la probabilidad de que una secuencia extraída al azar de manera uniforme de todas las secuencias que cumplen esa descripción contenga exactamente un cierto número $k$ de los pares CG?

Denote los recuentos de los nucleótidos por $\def\n#1{n_{\text #1}}\n A$ , $\n C$ , $\n G$ y $\n T$ y su suma, la longitud de la secuencia, por $n$ . Entonces podemos formar $k$ pares de CG y distribuirlos $k$ pares y los restantes $n-2k$ nucleótidos individuales en

$$ \binom{n-k}{\n A,\n T,\n C-k,\n G-k,k} $$

diferentes maneras (ver coeficientes multinomiales ). Pero esto cuenta en exceso, ya que estamos permitiendo que los nucleótidos C y G restantes formen parejas. Cada combinación con $m$ se cuentan los pares $\binom mk$ veces, donde no debería contarse en absoluto. Haciendo uso de

$$ \sum_{j=k}^m\binom mj\binom jk(-1)^{j-k}=\delta_{km}\;, $$

podemos corregir el sobreconteo y calcular el recuento deseado de secuencias que cumplen la descripción como

$$ \begin{align} &\sum_{j=k}^\infty\binom{n-j}{\n A,\n T,\n C-j,\n G-j,j}\binom jk(-1)^{j-k}\\=&\sum_{j=k}^\infty\binom{n-j}{\n A,\n T,\n C-j,\n G-j,j-k,k}(-1)^{j-k}\;, \end{align} $$

donde la suma en realidad sólo llega a $\min(\n C,\n G)$ y el resto de términos son cero. Este recuento debe dividirse por el número total de secuencias que cumplen la descripción, que es

$$ \binom n{\n A,\n T,\n C,\n G}\;. $$

En su ejemplo, con $\n A=3$ , $\n C=\n G=\n T=4$ , $n=15$ y $k=3$ el resultado sería

$$ \binom{15}{3,4,4,4}^{-1}\left(\binom{12}{3,4,1,1,3}-\binom{11}{3,4,1,3}\right)=\frac{44}{1365}\approx3\%\;. $$

[ Editar en respuesta al comentario: ]

Si quieres contar las secuencias con al menos $k$ todavía tenemos que corregir el sobreconteo, ya que cada una de las secuencias con más de $k$ Los pares se cuentan más de una vez, pero la corrección es ligeramente diferente. La identidad del coeficiente binomial requerida es

$$ \sum_{j=k}^m\binom mj\binom{j-1}{k-1}(-1)^{j-k}=1\;, $$

y la suma resultante es

$$ \sum_{j=k}^\infty\binom{n-j}{\n A,\n T,\n C-j,\n G-j,j}\binom{j-1}{k-1}(-1)^{j-k}\;. $$

En su ejemplo, con $\n A=3$ , $\n C=\n G=\n T=4$ , $n=15$ y $k=3$ el resultado sería

$$ \binom{15}{3,4,4,4}^{-1}\left(\binom{12}{3,4,1,1,3}\binom22-\binom{11}{3,4,4}\binom32\right)=\frac{3}{91}\approx3\%\;. $$

El cambio en relación con el resultado para exactamente $3$ pares es inferior a una décima parte. La diferencia en los recuentos,

$$ \left(\binom{12}{3,4,1,1,3}\binom22-\binom{11}{3,4,4}\binom32\right) - \left(\binom{12}{3,4,1,1,3}-\binom{11}{3,4,1,3}\right) = \binom{11}{3,4,4} \;, $$

es precisamente el número de secuencias con $4$ Pares de CG.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X