Antecedentes Biológicos
A lo largo del tiempo, algunas especies de plantas tienden a duplicar sus genomas completos, la obtención de una copia de cada gen. Debido a la inestabilidad de esta instalación, que muchos de estos genes son luego eliminados, y el genoma se reorganiza y se estabiliza, listo para duplicar de nuevo. Estos eventos de duplicación están asociados con la especiación y la invasión de los eventos, y la teoría es que la duplicación de la ayuda a las plantas a adaptarse más rápidamente a sus nuevos ambientes.
Lupinus, un género de plantas con flores, invadieron la cordillera de los Andes en uno de los más rápidos de los eventos de especiación detectado, y lo que es más, parece tener más copias duplicadas en su genoma que el más estrechamente relacionado con el género, Baptisia.
Y ahora el problema matemático:
Los genomas de un miembro de Lupinus y un miembro de Baptisia han sido secuenciados, proporcionando datos en bruto de aproximadamente 25.000 genes en cada una de las especies. Por consultas contra una base de datos de genes de función conocida, ahora tengo una "mejor estimación" por lo que las funciones que el gen podría realizar - así, por ejemplo, Gene1298 podría estar asociado con "el metabolismo de la fructosa, sal de la respuesta de estrés, el frío de la respuesta de estrés". Quiero saber, si hay un evento de duplicación entre Baptisia y Lupinus, si la pérdida de genes llevó a cabo al azar, o si los genes en la realización de las funciones eran más propensos a ser conservados o eliminados.
Tengo un script que imprima una tabla como la que se muestra a continuación. L * es un recuento de todos los Lupinus genes relacionados con la función. L 1+ es un recuento de lupinus genes asociados con la función de que al menos una copia duplicada existe. Me puede llegar a producir L 2+ L 3+ etc., aunque L 1+ es mucho más fiable grupo de L 2+ debido a que el proceso de secuenciación.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Lo que me gustaría hacer es probar, para cada gen de la función, independientemente de si hay más o menos genes con los duplicados de lo que cabría esperar por casualidad en Lupinus y Baptisia, y si Lupinus difiere de Baptisia en la relación de observado que espera.
La mejor cosa que he hecho hasta ahora
Estudios previos en diferentes especies se han utilizado el Análisis de Enriquecimiento, con la Prueba Exacta de Fisher y FDR corrección para varios de muestreo, para hacer una contingencia de prueba en cada fila.
Sería bueno para mejorar en esto; no estoy seguro de que esto suena como la mejor manera de hacerlo.
Glen_b ha sugerido el uso de un GLM para analizar los datos; he jugado con GLMs en JMP8, que ha sido muy interesante, pero tengo que admitir que realmente no la comprensión de ellos.
Dicho esto, estoy tratando de usar R en vez de eso ahora.
Lo estoy utilizando esto?
Este principio se iba a ser como parte de un breve proyecto de investigación que estoy haciendo en la universidad, pero ahora se extendió en una enorme anotación del genoma del proyecto. Por qué? Debido a que la bioinformática es genial. Ser capaz de tomar una cadena de a,T,C y G y lo utilizan para inferir información acerca de los eventos que sucedieron hace millones de años es increíble.
Huelga decir que yo no soy de ir a probar y presentar cualquier proporcionado amablemente responder como mi propio trabajo. Yo estaría encantado de incluir una mención en el papel si yo uso un método que aquí se sugiere en el trabajo enviado.