Soy bioinformático y trabajo en Datos de RNA-Seq . Los datos contienen una gran cantidad de lee (de longitud 80 pb en mi caso). Estas lecturas son fragmentos de esos genes que fueron expresado . Los mapeo de vuelta a mi genoma de referencia que ayuda a responder a muchas preguntas (expresión de genes, variantes snp, splicing alternativo, etc...).
Trabajo en empalme alternativo donde me interesa caracterizar los eventos donde los mismos genes express en más de 1 formas que conducen a diferentes transcripciones . Digamos que mis datos constan de 4 bibliotecas (o réplicas biológicas) para cada una de las 2 subespecies de plantas (estrechamente relacionadas y pertenecientes a la misma especie). Y, me gustaría ver eventos de omisión de exón (donde a veces se excluyen ciertos exones de los genes codificantes).
Mi pregunta es sobre el análisis estadístico para caracterizar estos eventos de omisión de exón entre las dos subespecies sobre esas réplicas . Sin embargo, la base de mi pregunta (o línea de pensamiento y, por lo tanto, la complejidad) proviene del análisis estadístico sobre los datos de RNA-Seq para la expresión de genes. Por lo tanto, voy a enmarcar el problema desde allí. Por favor, tengan paciencia conmigo.
Para cada gen, $g_{i}$ su expresión es = número de lecturas mapeadas a ese gen (o datos de recuento ). Para un gen, $g_{1}$ Por ejemplo, los datos tendrían este aspecto.
Lib1 Lib2 Lib3 Lib4
sA 400 420 600 250
sB 180 229 60 125
Desde su datos de recuento dada la concentración $q_{1}$ del gen $g_{1}$ Los bioestadísticos suelen modelar el número de lecturas, $r_{1}$ que mapean a un $g_{1}$ como un modelo poisson. Se puede demostrar que $r_{1} \propto q_{i}$ o $r_{1} = sq_{1}$ (parámetro de Poisson). Es decir, $p(Y = r_{1} | sq_{1}) \sim poisson$ . Una pregunta : Esto significa, que si yo midiera para el mismo gen, el conteo de lecturas y anotara la concentración, entonces, terminaría en un modelo de poisson, ¿cierto?
A partir de aquí, como no podemos conocer la concentración $q_{1}$ , hacen uso de las réplicas biológicas, para estimar la variación. Si $Q_{1}$ representa las concentraciones sobre (todas) las réplicas biológicas, entonces bajo la suposición de que esto sigue una distribución gamma (por conveniencia matemática), los recuentos de lectura $R_{1}$ para el gen $g_{1}$ seguiría un distribución binomial negativa . Parece que se trata de un modelo de Poisson sobredispersado. A continuación se realiza una prueba estadística para estimar si la diferencia de expresión es estadísticamente significativa bajo un determinado $\alpha$ . Hay paquetes R disponibles que implementan esto.
Ahora, volviendo a mi problema En lugar de buscar en cada gen, para cada exón , $E_{i}$ Averiguo el número de veces que este exón es empalmado (= no incluido en la transcripción) y el número de veces que se incluye, en todas las bibliotecas, en ambas subespecies.
Entonces, para un exón, $E_{1}$ los datos tendrían este aspecto, por ejemplo: El primer número de cada entrada es el número de eventos de omisión de exón y el segundo es el eventos normales .
Lib1 Lib2 Lib3 Lib4
sA 2, 80 1, 65 0, 40 2, 66
sB 10, 120 0, 22 8, 90 4, 90
La diferencia es que tengo dos valores para cada entrada. Me gustaría averiguar, para cada exón, si hay una diferencia entre las dos subespecies. Mi pensamiento inmediato fue calcular la proporción, para cada entrada, y luego utilizar el modelo existente, sin embargo, están en base a los datos de recuento. Por lo tanto, mis preguntas son las siguientes
1) En general, ¿se sabe/se puede estimar qué distribución seguiría la relación de dos recuentos?
2) ¿Existen otros enfoques ( por ejemplo, modelos lineales generalizados ) que podría a partir de estos datos (incluyendo la dispersión de las réplicas) ayudarme a calcular si la ocurrencia de eventos de omisión de exón entre las dos subespecies es estadísticamente significativa?
P.D.: En caso de que algunas cosas no queden suficientemente claras, me encantaría aclararlas (no soy en absoluto un estadístico). Os agradecería cualquier idea que tengáis sobre este problema. Gracias de nuevo.