2 votos

Encontrar la distribución y/o ajustar un modelo (a un problema biológico)

Soy bioinformático y trabajo en Datos de RNA-Seq . Los datos contienen una gran cantidad de lee (de longitud 80 pb en mi caso). Estas lecturas son fragmentos de esos genes que fueron expresado . Los mapeo de vuelta a mi genoma de referencia que ayuda a responder a muchas preguntas (expresión de genes, variantes snp, splicing alternativo, etc...).

Trabajo en empalme alternativo donde me interesa caracterizar los eventos donde los mismos genes express en más de 1 formas que conducen a diferentes transcripciones . Digamos que mis datos constan de 4 bibliotecas (o réplicas biológicas) para cada una de las 2 subespecies de plantas (estrechamente relacionadas y pertenecientes a la misma especie). Y, me gustaría ver eventos de omisión de exón (donde a veces se excluyen ciertos exones de los genes codificantes).

Mi pregunta es sobre el análisis estadístico para caracterizar estos eventos de omisión de exón entre las dos subespecies sobre esas réplicas . Sin embargo, la base de mi pregunta (o línea de pensamiento y, por lo tanto, la complejidad) proviene del análisis estadístico sobre los datos de RNA-Seq para la expresión de genes. Por lo tanto, voy a enmarcar el problema desde allí. Por favor, tengan paciencia conmigo.

Para cada gen, $g_{i}$ su expresión es = número de lecturas mapeadas a ese gen (o datos de recuento ). Para un gen, $g_{1}$ Por ejemplo, los datos tendrían este aspecto.

     Lib1    Lib2    Lib3    Lib4
sA   400     420      600     250
sB   180     229       60     125

Desde su datos de recuento dada la concentración $q_{1}$ del gen $g_{1}$ Los bioestadísticos suelen modelar el número de lecturas, $r_{1}$ que mapean a un $g_{1}$ como un modelo poisson. Se puede demostrar que $r_{1} \propto q_{i}$ o $r_{1} = sq_{1}$ (parámetro de Poisson). Es decir, $p(Y = r_{1} | sq_{1}) \sim poisson$ . Una pregunta : Esto significa, que si yo midiera para el mismo gen, el conteo de lecturas y anotara la concentración, entonces, terminaría en un modelo de poisson, ¿cierto?

A partir de aquí, como no podemos conocer la concentración $q_{1}$ , hacen uso de las réplicas biológicas, para estimar la variación. Si $Q_{1}$ representa las concentraciones sobre (todas) las réplicas biológicas, entonces bajo la suposición de que esto sigue una distribución gamma (por conveniencia matemática), los recuentos de lectura $R_{1}$ para el gen $g_{1}$ seguiría un distribución binomial negativa . Parece que se trata de un modelo de Poisson sobredispersado. A continuación se realiza una prueba estadística para estimar si la diferencia de expresión es estadísticamente significativa bajo un determinado $\alpha$ . Hay paquetes R disponibles que implementan esto.

Ahora, volviendo a mi problema En lugar de buscar en cada gen, para cada exón , $E_{i}$ Averiguo el número de veces que este exón es empalmado (= no incluido en la transcripción) y el número de veces que se incluye, en todas las bibliotecas, en ambas subespecies.

Entonces, para un exón, $E_{1}$ los datos tendrían este aspecto, por ejemplo: El primer número de cada entrada es el número de eventos de omisión de exón y el segundo es el eventos normales .

     Lib1    Lib2    Lib3    Lib4
sA   2, 80   1, 65   0, 40   2, 66
sB   10, 120 0, 22   8, 90   4, 90

La diferencia es que tengo dos valores para cada entrada. Me gustaría averiguar, para cada exón, si hay una diferencia entre las dos subespecies. Mi pensamiento inmediato fue calcular la proporción, para cada entrada, y luego utilizar el modelo existente, sin embargo, están en base a los datos de recuento. Por lo tanto, mis preguntas son las siguientes

1) En general, ¿se sabe/se puede estimar qué distribución seguiría la relación de dos recuentos?
2) ¿Existen otros enfoques ( por ejemplo, modelos lineales generalizados ) que podría a partir de estos datos (incluyendo la dispersión de las réplicas) ayudarme a calcular si la ocurrencia de eventos de omisión de exón entre las dos subespecies es estadísticamente significativa?

P.D.: En caso de que algunas cosas no queden suficientemente claras, me encantaría aclararlas (no soy en absoluto un estadístico). Os agradecería cualquier idea que tengáis sobre este problema. Gracias de nuevo.

1voto

Bryan Rehbein Puntos 3947
  1. Creo que se puede decir que el par de números son extracciones independientes de dos distribuciones binomiales negativas.

  2. Puede utilizar un modelo lineal generalizado (con una familia binomial negativa y una función de enlace logarítmica) para comparar las proporciones de la misma manera que utilizaría las mismas para comparar los dos grupos. En lugar de un modelo como y ~ species se utilizaría y ~ species * exonskip el término de interacción correspondería a la diferencia entre los coeficientes logarítmicos.

Aquí están los datos:

dat <- structure(list(y = c(2, 1, 0, 2, 80, 65, 40, 66, 10, 0, 8, 4, 
           120, 22, 90, 90), lib = structure(c(1L, 2L, 3L, 4L, 1L, 2L, 3L, 
           4L, 1L, 2L, 3L, 4L, 1L, 2L, 3L, 4L), .Label = c("Lib1", "Lib2", 
           "Lib3", "Lib4"), class = "factor"), species = structure(c(1L, 
           1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("sA", 
           "sB"), class = "factor"), exonskip = structure(c(2L, 2L, 2L, 
           2L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L), .Label = c("no", 
           "yes"), class = "factor")), .Names = c("y", "lib", "species", 
           "exonskip"), row.names = c(NA, -16L), class = "data.frame")

Eso es fácil para copiar y pegar, pero no es tan claro. Aquí están las primeras filas:

> dat[1:5,]
   y  lib species exonskip
1  2 Lib1      sA      yes
2  1 Lib2      sA      yes
3  0 Lib3      sA      yes
4  2 Lib4      sA      yes
5 80 Lib1      sA       no

El paquete MASS incluye una función glm.nb para ajustar un GLM con la familia binomial negativa y estimar el parámetro de sobredispersión. Se puede utilizar de la siguiente manera:

library(MASS)
out <- glm.nb(y ~ species * exonskip, data=dat)
summary(out)

Aquí están las partes clave de la salida:

Coefficients:
                      Estimate Std. Error z value         Pr(>|z|)
(Intercept)             4.1392     0.2334  17.731          < 2e-16
speciessB               0.2491     0.3288   0.758           0.4487
exonskipyes            -3.9160     0.5523  -7.091 0.00000000000133
speciessB:exonskipyes   1.2325     0.6742   1.828           0.0675

              Theta:  4.95 
          Std. Err.:  2.63 

El coeficiente estimado para el término de interacción, 1,2 (SE = 0,7), es la estimación de la diferencia (sB - sA) de la relación logarítmica (exón omitido / no omitido).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X