5 votos

Problema bioinformático: enriquecimiento de palabras específicas en una secuencia dada

Mi bioinformatical problema se parece a esto:
dos conjuntos de secuencias de genes (tamaño de establecer Un > 1000, tamaño de serie B > 1000; longitud de la secuencia varía de 1000 a 100000).

Set_A_Sequence_1: ACGTACGTACGT...
Set_A_Sequence_2: ACGGAAGT AAA T...
....
Set_B_Sequence_1: AAA G AAA TG AAA ...
Set_B_Sequence_2: AAA CT AAA C AAA ...
...

Quiero ver si Set_B secuencias son enriquecidos por la palabra específica (por ejemplo: AAA).
¿Cómo puedo hacer esto?
Yo me vine con tres soluciones:

  1. Contar cuántos Set_A secuencias tienen/no tienen palabra;
    Contar cuántos Set_B secuencias tienen/no tienen palabra.
    Aplicar de Fisher prueba.
  2. Contar cuántas ocurrencias de la palabra hay por secuencia en Set_A;
    Contar cuántas ocurrencias de la palabra hay por secuencia en Set_B.
    (Para un conjunto dado ejemplo sería: Set_A:0,1; Set_B:3,3).
    Lo estadístico de prueba que se pueden utilizar para tal análisis de enriquecimiento?
  3. Calcular el porcentaje de secuencia en Set_A cubierto con la palabra;
    Calcular el porcentaje de secuencia en Set_B cubierto con la palabra.
    (Por ejemplo, los datos tendría este aspecto: Set_A:0%,25%; Set_B:75%,75%).
    Lo estadístico de prueba que se pueden utilizar para tal análisis de enriquecimiento?

Preguntas:
Es correcto uso de la prueba de Fisher en la solución 1 (Contiene/no contiene la palabra)?
¿Qué pruebas estadísticas que podría utilizar para la solución 2 (Número de palabras)?
¿Qué pruebas estadísticas que podría utilizar para la solución 3 (Cobertura con la palabra)?

Editar
Simplificado de datos se parece a esto:

Sequence name   Length   Contain word(0/1)   Number of words   Coverage with word(%)  

Set_A_seq_1     1000               0                0                 0
Set_A_seq_2     2000               1                1                 15
Set_A_seq_3     3450               0                0                 0
Set_A_seq_4     10000              0                0                 0
Set_A_seq_5     25000              1                2                 5
...

Set_B_seq_1     20000              1                3                 25  
Set_B_seq_2     100000             1                3                 30
Set_B_seq_2     9000               1                5                 70
Set_B_seq_2     10000              1                10                85
Set_B_seq_2     12000              1                7                 60
...          

EDITAR

Yo no era capaz de encontrar un montón de publicado metodología para la genómica sitio de enriquecimiento, pero esta cifra sugiere manera perfecta de solucionar el problema que tengo. Figura A. Enriquecimiento en tres diferentes sitios del genoma en comparación con el uso de permutación impar de enriquecimiento para permutated de datos. Relationship of repetitive elements to specific genomic sites (22948768)

4voto

JMW.APRN Puntos 21

Solución 1 tiene un problema con la longitud de la secuencia. Por ejemplo, si usted está interesado en la palabra A y todas sus secuencias tienen la longitud de 10.000 es muy probable que todos contienen la palabra de interés, en cuyo caso la prueba de Fisher no informan nada significativo, incluso si la aparición de la palabra varía mucho dentro de las secuencias.

Solución 2 sufre algún sesgo, si las secuencias de la serie no tienen el mismo promedio de la longitud de las secuencias del conjunto B.

Solución 3 se ve mejor para mí. Pero usted debe concatenar todas las secuencias de Un conjunto, calcular el promedio de la cobertura por la palabra de su interés y hacer lo mismo con las secuencias de la serie B, por lo que ustedes están en el problema de la comparación de dos proporciones.

A mi conocimiento, dando la respuesta correcta a su problema actualmente es imposible debido a las apariciones de las palabras no son independientes. Si estos son reales los genes no pueden ser locales fuertes dependencias entre las palabras, y el modelado de estas dependencias es técnicamente difícil.

Sin embargo, si usted está listo para aceptar la simplificación de la suposición de que las palabras son independientes e idénticamente distribuidas, se puede utilizar la aproximación Gaussiana y envuélvalo con el test t de Student. Usted puede encontrar una explicación más amplia de este enfoque en esta página.

Brevemente, calcular las dos proporciones $p_1$$p_2$, utilice el conjunto de error estándar de la estimación $\sqrt{p_1(1-p_1)/n_1 + p_2(1-p_2)/n_2}$ donde $n_1$ $n_2$ es el total de nucleótidos de las longitudes de las secuencias en el grupo a y B y busque el valor de la siguiente estadística en los cuantiles de la estándar de la distribución Gaussiana.

$$ x = \frac{p_1-p_2}{\sqrt{p_1(1-p_1)/n_1 + p_2(1-p_2)/n_2}} $$

Si el uso de R, el valor p de la prueba será de 2*pnorm(abs(x), lower.tail=FALSE).

2voto

user26651 Puntos 26

Esta pregunta me recordó a la FASTQC de salida....que es el resultado de la exploración muchas secuencias cortas (lee)....y buscando motivos representados

De : http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/11%20Overrepresented%20Kmers.html

Este módulo cuenta el enriquecimiento de cada 5-mer dentro de la secuencia biblioteca. Se calcula un nivel esperado en que este k-mer debe se han visto basados en la base de contenido de la biblioteca como un todo y a continuación, utiliza el recuento para calcular una observados y esperados, el ratio de que k-mer.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X