5 votos

Clasificación binaria motivo de secuencias de ADN (bioinformática)

He estado trabajando en un método para la clasificación binaria de ADN las secuencias. En más detalle, aquí es lo que el método no.

Dada una familia de secuencias de ADN, por ejemplo de la secuencia de ADN motivos, trato de predecir si otras secuencias que pertenecen a esta familia, mediante la medición de su la similitud de las secuencias en la familia. Mi método se ajusta a un la distribución de las secuencias y, a continuación, asigna un pvalue a las secuencias no en la familia.

En los datos que estoy usando, las secuencias son todos de la longitud de 28. El las secuencias que estoy analizando son aquí, específicamente humanos 12 RSS y ratón 12 RSS.

Desde una comparación con los métodos existentes es siempre una buena cosa, yo soy preguntando ¿cuáles son los métodos estándar para batir, si alguna? Yo no soy muy familiarizado con los métodos disponibles/algoritmos.

Estoy en el proceso de tratar de MEME. Este no parece hacer exactamente lo que yo quiero, y no sé si voy a ser capaz de persuadir. Específicamente, no estoy seguro de si puedo decir es que las secuencias de 28 de longitud son el motivo. Tengo la impresión de la documentación que decide lo que los motivos son por sí misma, o algo.

Este probablemente sea el que más en el tema en bioinformática de sitio, pero SE actualmente no tiene uno, así que estoy tratando aquí.

Me puede dar más detalles si es necesario.

NOTA: creo que sería bueno si en bioinformática de la etiqueta puede ser creado y utilizado aquí. Esto no parece existir en la actualidad.

ACTUALIZACIÓN: creo que mi pregunta original fue escrito mal y carecía de el detalle suficiente, así que estoy añadiendo algunos más (esperemos que útil) detalles.

Estoy analizaron dos RSS conjuntos de datos, cada uno de los cuales es una colección de secuencias, como he estado por encima de. El propósito principal del análisis es hacer la predicción. Así Que, Me usa una cruz-método de validación. He dividido cada conjunto de datos en 5 partes, y 4 de las cinco partes como un conjunto de entrenamiento en turno. (El número 5 aquí es un poco arbitrario, pero ya quiero incluir los resultados por conjunto de entrenamiento, no quiero que el número es demasiado grande). Después de la colocación un modelo para el conjunto de entrenamiento, luego utiliza este modelo para la predicción como de la siguiente manera.

El RSS conjunto de datos está contenida en los segmentos de los genes, por lo general uno o dos RSS por segmento de gen. Los segmentos de los genes son a menudo mucho más grande que el RSS. Estas son las 12 de RSS, por lo que cada RSS tiene una duración de 28. Tomé todas las segmentos de genes que pude encontrar que contenía un RSS, y seleccionados de todos ellos contigous secuencias de longitud de 28. El número total actual de estas secuencias es 449905 para uno, y 624400 para el otro. El número correspondiente de RSS 118 y 201. Tenga en cuenta que estos conjuntos ¿ no necesariamente contienen todos los valores distintos.

Así que, he utilizado el modelo derivado del conjunto de entrenamiento para calcular pvalues para todos estos aprox 500,000 secuencias. (Estoy dejando fuera a algunos detalles aquí, pero creo que no es importante, ¿cómo es exactamente que me calcula los valores.)

A continuación, he clasificado las secuencias por orden decreciente de pvalues. La idea era que el RSS secuencias serían los primeros puestos en este ranking, y en el evento se hizo.

Ahora, me gustaría encontrar un algoritmo que puede realizar una similar procedimiento. Hasta ahora no he tenido mucha suerte - yo he sido de vadear a través de una en la ciénaga de la confusión de los papeles y los resultados, en su mayoría escritos por los biólogos, y por lo tanto difícil de entender para mí. Mucho del material relacionado parece ser acerca de novo motivo de descubrimiento, que se acerca por arte de magia encontrar motivos aparentemente sin un conjunto de entrenamiento. También, gran parte de la el software no parece diseñado para lidiar con secuencias tan largo o tan numerosos como en mi ejemplo. Alguien sugirió tomtom de MEME, pero por lo ahora no tengo que trabajar.

5voto

Peter Puntos 658

Métodos del núcleo (tales como Máquinas de Vectores Soporte) son muy populares para este tipo de cosas.

Básicamente, la Máquina de Soporte Vectorial se define una función de distancia entre dos secuencias (como texto, o ADN), que normalmente se basa en una versión de lujo de la distancia de edición. A continuación, traduce las secuencias de puntos en un espacio de alta dimensión y se adapta a una hyperplane para separar las secuencias en cada clase perfectamente (que siempre es más fácil de hacer en muchas dimensiones). El truco para el núcleo de los métodos es que en realidad se puede dejar de lado la traducción de mayores dimensiones, y trabajar directamente en los datos como si se hubiera traducido en un alto dimensiones del espacio, por lo que funciona de manera muy eficiente.

Este es un muy buen libro con una introducción a los métodos del núcleo para los biólogos y una introducción a la genética de científicos de la computación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X