11 votos

El análisis de enriquecimiento por la duplicación de genes a nivel de

Antecedentes Biológicos

A lo largo del tiempo, algunas especies de plantas tienden a duplicar sus genomas completos, la obtención de una copia de cada gen. Debido a la inestabilidad de esta instalación, que muchos de estos genes son luego eliminados, y el genoma se reorganiza y se estabiliza, listo para duplicar de nuevo. Estos eventos de duplicación están asociados con la especiación y la invasión de los eventos, y la teoría es que la duplicación de la ayuda a las plantas a adaptarse más rápidamente a sus nuevos ambientes.

Lupinus, un género de plantas con flores, invadieron la cordillera de los Andes en uno de los más rápidos de los eventos de especiación detectado, y lo que es más, parece tener más copias duplicadas en su genoma que el más estrechamente relacionado con el género, Baptisia.

Y ahora el problema matemático:

Los genomas de un miembro de Lupinus y un miembro de Baptisia han sido secuenciados, proporcionando datos en bruto de aproximadamente 25.000 genes en cada una de las especies. Por consultas contra una base de datos de genes de función conocida, ahora tengo una "mejor estimación" por lo que las funciones que el gen podría realizar - así, por ejemplo, Gene1298 podría estar asociado con "el metabolismo de la fructosa, sal de la respuesta de estrés, el frío de la respuesta de estrés". Quiero saber, si hay un evento de duplicación entre Baptisia y Lupinus, si la pérdida de genes llevó a cabo al azar, o si los genes en la realización de las funciones eran más propensos a ser conservados o eliminados.

Tengo un script que imprima una tabla como la que se muestra a continuación. L * es un recuento de todos los Lupinus genes relacionados con la función. L 1+ es un recuento de lupinus genes asociados con la función de que al menos una copia duplicada existe. Me puede llegar a producir L 2+ L 3+ etc., aunque L 1+ es mucho más fiable grupo de L 2+ debido a que el proceso de secuenciación.

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

Lo que me gustaría hacer es probar, para cada gen de la función, independientemente de si hay más o menos genes con los duplicados de lo que cabría esperar por casualidad en Lupinus y Baptisia, y si Lupinus difiere de Baptisia en la relación de observado que espera.

La mejor cosa que he hecho hasta ahora

Estudios previos en diferentes especies se han utilizado el Análisis de Enriquecimiento, con la Prueba Exacta de Fisher y FDR corrección para varios de muestreo, para hacer una contingencia de prueba en cada fila.

Sería bueno para mejorar en esto; no estoy seguro de que esto suena como la mejor manera de hacerlo.

Glen_b ha sugerido el uso de un GLM para analizar los datos; he jugado con GLMs en JMP8, que ha sido muy interesante, pero tengo que admitir que realmente no la comprensión de ellos.

Dicho esto, estoy tratando de usar R en vez de eso ahora.

Lo estoy utilizando esto?

Este principio se iba a ser como parte de un breve proyecto de investigación que estoy haciendo en la universidad, pero ahora se extendió en una enorme anotación del genoma del proyecto. Por qué? Debido a que la bioinformática es genial. Ser capaz de tomar una cadena de a,T,C y G y lo utilizan para inferir información acerca de los eventos que sucedieron hace millones de años es increíble.

Huelga decir que yo no soy de ir a probar y presentar cualquier proporcionado amablemente responder como mi propio trabajo. Yo estaría encantado de incluir una mención en el papel si yo uso un método que aquí se sugiere en el trabajo enviado.

0voto

Jawa Puntos 141

Como usted dice, usted está pidiendo a dos preguntas.

Pregunta 1: "es la relación L*/L1+ diferente de B*/B1+ para un gen dado a la función de"

esta podría ser la mejor contestada con la prueba exacta de Fisher, utilizando datos a través de la fila como usted que se encuentra previamente.

Pregunta 2 "es la razón: los genes donde hay una sola copia / genes donde hay más de una copia, diferentes entre las funciones de los genes?"

Creo que esto también podría ser la mejor contestada con la prueba exacta de Fisher. Te gustaría probar la relación de L*/L1+ para la función del gen 1 contra L*/L1+ para la función del gen 2. A continuación, la función de los genes 1 Vs la función del gen 3, etc.

Ninguno de estos conjuntos de preguntas que se presenta a si están o no están siendo mantenidos/elimina más rápido de lo esperado por casualidad, sólo si se eliminan y mantenidas a tasas diferentes el uno del otro. Para saber si estaban siendo eliminados/mantenido a un ritmo diferente que por azar, sería necesario conocer la proporción de singlecopy/multiplecopies para muchas de las regiones de ADN que sólo están siendo afectados por casualidad. Si usted puede encontrar estas regiones, que acabaría con un "grupo funcional" donde la función es "Ninguno". Te gustaría entonces comparar esto a su otro gen de la función de los grupos de la misma manera como se describe en la pregunta 2.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X