Mi bioinformatical problema se parece a esto:
dos conjuntos de secuencias de genes (tamaño de establecer Un > 1000, tamaño de serie B > 1000; longitud de la secuencia varía de 1000 a 100000).
Set_A_Sequence_1: ACGTACGTACGT...
Set_A_Sequence_2: ACGGAAGT AAA T...
....
Set_B_Sequence_1: AAA G AAA TG AAA ...
Set_B_Sequence_2: AAA CT AAA C AAA ...
...
Quiero ver si Set_B secuencias son enriquecidos por la palabra específica (por ejemplo: AAA
).
¿Cómo puedo hacer esto?
Yo me vine con tres soluciones:
- Contar cuántos Set_A secuencias tienen/no tienen palabra;
Contar cuántos Set_B secuencias tienen/no tienen palabra.
Aplicar de Fisher prueba. - Contar cuántas ocurrencias de la palabra hay por secuencia en Set_A;
Contar cuántas ocurrencias de la palabra hay por secuencia en Set_B.
(Para un conjunto dado ejemplo sería: Set_A:0,1; Set_B:3,3).
Lo estadístico de prueba que se pueden utilizar para tal análisis de enriquecimiento? - Calcular el porcentaje de secuencia en Set_A cubierto con la palabra;
Calcular el porcentaje de secuencia en Set_B cubierto con la palabra.
(Por ejemplo, los datos tendría este aspecto: Set_A:0%,25%; Set_B:75%,75%).
Lo estadístico de prueba que se pueden utilizar para tal análisis de enriquecimiento?
Preguntas:
Es correcto uso de la prueba de Fisher en la solución 1 (Contiene/no contiene la palabra)?
¿Qué pruebas estadísticas que podría utilizar para la solución 2 (Número de palabras)?
¿Qué pruebas estadísticas que podría utilizar para la solución 3 (Cobertura con la palabra)?
Editar
Simplificado de datos se parece a esto:
Sequence name Length Contain word(0/1) Number of words Coverage with word(%)
Set_A_seq_1 1000 0 0 0
Set_A_seq_2 2000 1 1 15
Set_A_seq_3 3450 0 0 0
Set_A_seq_4 10000 0 0 0
Set_A_seq_5 25000 1 2 5
...
Set_B_seq_1 20000 1 3 25
Set_B_seq_2 100000 1 3 30
Set_B_seq_2 9000 1 5 70
Set_B_seq_2 10000 1 10 85
Set_B_seq_2 12000 1 7 60
...
EDITAR
Yo no era capaz de encontrar un montón de publicado metodología para la genómica sitio de enriquecimiento, pero esta cifra sugiere manera perfecta de solucionar el problema que tengo. Figura A. Enriquecimiento en tres diferentes sitios del genoma en comparación con el uso de permutación impar de enriquecimiento para permutated de datos.