5 votos

La predicción de la propiedad química (Punto de Ebullición) de una cadena de SONRISAS

Yo estaba tratando de desarrollar un modelo para predecir los Puntos de Ebullición (BP) dado un nombre químico. Una buena y única (bueno, casi) de manera de codificar un nombre es la sonrisa de la notación de la cadena. Los detalles de la notación son un poco complejo ( ver aquí)

 e.g. 
 Name     Smiles  BP
 Benzene c1ccccc1 80
 Propane CCC      -42
 Ethanol CCO      78
 Phenol  c1ccc(cc1)O  181
 ....

Me preguntaba si yo podría ser capaz de extraer características de la Cadena de Sonrisas y usarla para predecir de BP. Un gran conjunto de datos de entrenamiento (~10,000 compuestos) ya está disponible. Una difícil punto puede ser que la notación es sensible a mayúsculas y varios paréntesis tienen un sentido topológico (ramificación) y también ciertos símbolos (= por un doble enlace, # por un enlace triple)

Tradicionalmente, la química de la literatura utiliza contribución del grupo de métodos, pero aquellos que dependen de un humano o de algunos de smart código para analizar las SONRISAS, las cadenas en sus entidades constitutivas (por ejemplo, 3 grupos OH, 1 doble enlace, etc.) Hay buenas thumbrules ya conocidos, por ejemplo, Entre todos los alcanos cada grupo CH2 añade tantos grados a la BP, etc. O Alcoholes de ebullición más alto debido a la vinculación del hidrógeno. Pero me preguntaba si sería mejor dejar que la máquina de aprendizaje del algoritmo de la figura de estos por sí mismo.

Alguna idea sobre qué métodos utilizar? O es pedir demasiado a un algoritmo automatizado?

3voto

deckoff Puntos 528

Es una cuestión de generación de características o variables que describen la SONRISA de la representación de un compuesto químico. La química computacional ha propuesto buena definiciones de los diferentes descriptores químicos que pueden ser trasnformed en huellas dactilares. Estas huellas, que son los vectores de números (binario o real) que da una descripción de los compuestos químicos basados en la SONRISA de la representación. Una vez que generan estas características, usted puede comenzar a construir su clasificación o modelo de regresión con el común de los métodos conocidos.

Con el fin de generar estas huellas (características), algunos buenos chemoinformatics herramientas están allí, como RDKit y OpenBabel. Por ejemplo, como se ilustra en la página de documentación de RDKit, puede crear algunas características utilizando el siguiente código en Python, después de la importación, el derecho de los paquetes:

ms = Chem.MolFromSmiles('c1ccc(cc1)O')


Algunas de las características de c1ccc(cc1)O será:
0 1 0 1 1 0 1 1 0 1 0 1 1 0 1 1 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 1 0 1 0 0 0 1 0 0 1 1 0 0 0 1 0 0 0 1 0 1 1 0 1 0 1 1 1 0 0 1 0 0

De continuar la generación de estas características, incluyendo a los demás (que se basan en definiciones diferentes, tales como MACCS teclas) disponible en el kit de herramientas para cada compuesto. A continuación, iniciar la construcción de un modelo de regresión para predecir los puntos de ebullición de cada compuesto. En un sentido es cierto que estos generan características podrían no necesariamente reflejan las propiedades químicas que se refleja por un bioling punto. Sin embargo, worths intentando !!

1voto

cbeleites Puntos 12461

Muy interesante el tema. Aquí están mis 2ct:

  • como ya sabemos que diversos grupos de influencia del punto de ebullición, creo que tendría sentido poner este conocimiento en funciones el algoritmo puede usar (como característica de la generación para el análisis de imágenes). Puede ser mucho más fácil para mejorar las estimaciones que están disponibles a través de tales características predefinidas de aprendizaje, sin ninguna orientación sobre cómo generar aportaciones significativas.

  • La codificación de características como la longitud de la cadena alquil, varios grupos funcionales, etc. puede dar una idea de qué tipo de algoritmo sería adecuado, porque se necesita un método que puede cubrir este tipo de complejidad.

  • La elección del método dependerá de su objetivo: la predicción sólo o también la descripción (es decir, ¿tú también quieres aprender/interprete lo que el modelo se utiliza para calcular el punto de ebullición)?

  • Las reglas fáciles para calcular el punto de ebullición son similares a los árboles de decisión. Así que tal vez los árboles de decisión (bosque aleatorio) con la regresión en las hojas sería un punto de partida.

  • En otros aspectos, el reglamento formular diferencias en comparación con otra sustancia, que tal vez sería más similar a, por ejemplo, las redes neuronales artificiales (por ejemplo, un nodo de "doble enlace cis" sería menor la bp, y esta reducción sería añadido junto con la salida de otro "grupo funcional" nodos). El árbol de decisión de construir una completamente diferente de regresión para las saturadas y las insaturadas sustancias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X