12 votos

SMILES frente a la representación gráfica en el aprendizaje profundo

He estado leyendo artículos sobre aprendizaje automático y métodos de aprendizaje profundo para aprender el espacio molecular y generar moléculas. Estos métodos utilizan diferentes representaciones de las moléculas. Las más populares en este campo incluyen SMILES y grafos [p. ej. este y este ]. En los dos últimos años he observado un cambio de interés de las representaciones SMILES a las representaciones moleculares gráficas. Me preguntaba cuáles son las posibles ventajas de las representaciones gráficas frente a SMILES.

Se me ocurren dos razones:

  1. El problema de la unicidad de los SMILES: dos cadenas SMILE pueden corresponder a la misma molécula.
  2. Los SMILES son representaciones abstractas, mientras que los gráficos son representaciones más naturales (aunque, en realidad, no puedo ver esto. Quiero decir, veo lo que significa, pero no SMILES también contienen la misma información?)

EDITAR:

algún párrafo que he encontrado en Internet y para el que necesito interpretación:

  1. se centra en moléculas cuyos enlaces se ajustan a la valencia de 2 electrones de 2 electrones
  2. maneja una gama limitada de tipos de estereoquímica
  3. no existe una norma para tratar la aromaticidad
  4. no existe una forma estándar de generar una representación canónica.

¿se corrige alguna de ellas en los gráficos? Por lo que sé:

Para 2: En los gráficos, se necesita algo más que definir átomos y enlaces para tener en cuenta la estereoquímica. Por ejemplo, también debería definir la quiralidad de cada nodo.

Para 3: Aunque en algunas representaciones gráficas los enlaces aromáticos tienen su tipo específico, me pareció mejor utilizar explícitamente el orden de los enlaces.

Para 1 y 4 no sé si los gráficos son mejores.

7voto

danivovich Puntos 3067

Estoy de acuerdo en que parece haber una tendencia a utilizar representaciones gráficas en lugar de cadenas SMILES. Personalmente creo que es algo positivo, e intentaré explicar por qué, pero aunque no haya nada intrínsecamente mejor en las representaciones gráficas de las moléculas, hay una razón muy práctica por la que la gente se está decantando por las representaciones gráficas.

Así que, en primer lugar, como usted señala, ambas representaciones adolecen del problema de que son necesariamente una reducción de la cantidad completa de información necesaria para especificar una estructura molecular. Por ejemplo, ni un gráfico ni una cadena SMILES podrían distinguir entre dos isómeros que sólo difieren en la dirección en la que se mueve un isómero libre. $\ce{O-H}$ puntos de grupo. De hecho, un gráfico desnudo no puede diferenciar entre las moléculas de hexano en barco, en silla o planas, ya que todas tienen una conectividad idéntica. No obstante, un grafo es una representación mucho más flexible que una cadena SMILES porque es bastante común añadir pesos a las aristas, que podrían ser distancias de enlace, o añadir parámetros a los nodos, que podrían describir ángulos a otros nodos. Así, se puede incluir información que está en las coordenadas cartesianas, sin tener los problemas asociados con derivar su representación molecular de las coordenadas cartesianas.

Esto indica la razón práctica por la que la gente utiliza representaciones gráficas. Básicamente, los grafos se utilizan en modelos de aprendizaje automático en muchos campos distintos de la química. Así que está muy bien no tener que reinventar la rueda, sobre todo cuando la gente tiene tanto éxito con cosas como el aprendizaje por transferencia, en el que coges un modelo preentrenado y lo reentrenas para tus propios fines.

Además, muy a menudo el primer paso para entrenar una red neuronal es realizar alguna transformación en los datos. Por ejemplo, las redes neuronales convolucionales gráficas han tenido éxito en muchas tareas, así que ¿por qué no utilizar un filtro convolucional en la representación gráfica de una molécula? Podrías hacerlo con una cadena SMILES, pero probablemente primero transformarías la cadena en algo parecido a un gráfico.


En cuanto a sus puntos concretos sobre quiralidad y aromaticidad, etc. Toda esta información puede adjuntarse a un gráfico a través de parámetros propios de cada nodo, aunque personalmente evitaría dar información que no sea estrictamente necesaria. Es decir, no hay nada especial en un enlace que esté en un anillo aromático. Hay que proporcionar datos suficientes para que el modelo pueda aprenderlo por sí mismo. Si le dices que los enlaces en anillos aromáticos son lo suficientemente especiales como para obtener otro parámetro, es probable que esto sesgue el modelo de alguna manera imprevista. La quiralidad se maneja fácilmente con un simple parámetro asociado a cada nodo.

En última instancia, sin embargo, la representación depende mucho del problema que se intente resolver. Por ejemplo, si se trata de aprender una representación de la superficie de energía potencial, los gráficos pueden funcionar bastante bien. Lo que quizá sea más común es utilizar las llamadas funciones de simetría centradas en el átomo. En este caso, las características reales son vectores abstractos que se garantiza que tienen las simetrías relevantes y la suavidad necesaria en la superficie de energía potencial.

Si estás haciendo algo más parecido a un problema de clasificación, entonces usar una representación como una cadena SMILES podría ser perfectamente adecuado.


TL;DR

Los gráficos son una representación más flexible que se utiliza habitualmente en campos ajenos a la química. Por eso, poder aprovechar los conocimientos de otras disciplinas es una gran ventaja, sobre todo cuando se colabora con informáticos que saben mucho de aprendizaje automático y nada de química.

4voto

Dylan Beattie Puntos 23222

Depende de cómo codifiques tus gráficos moleculares

La idea de una "tabla de conexiones" o modelo de valencia para las moléculas y, por tanto, de gráficos moleculares, está arraigada en el pensamiento químico.

Tomemos tus cuatro puntos:

  1. Es posible diseñar tablas de conexiones que admitan diversas interacciones. Por ejemplo, bonos de orden cero pueden codificar enlaces de coordinación, interacciones metal-ligando deslocalizadas, etc.
  2. Se puede escribir un gráfico que almacene una variedad de estereoquímica, aunque hay que admitir que la quiralidad axial, etc., requiere cierto trabajo para hacerlo (es decir, es una propiedad de la molécula en sí y no de un átomo o enlace en particular). Algunos formatos admiten incluso conceptos como centros estereoquímicos "55% R, 45% S".
  3. Tendría que definir un modelo de aromaticidad, aunque existen muchos y pueden adoptarse (por ejemplo, "utilizamos la definición de aromaticidad de SMILES")
  4. Tanto para grafos como para SMILES, existen muchos algoritmos de canonicalización publicados (por ejemplo, nosotros utilizamos el orden canónico de átomos InChI).

En resumen, la gente lleva mucho tiempo preocupada por los problemas de la quimioinformática:

Ambos trabajos indican expansiones de los conceptos estándar de grafos moleculares, por ejemplo [Gasteiger]:

T diseñadas para representar únicamente estructuras químicas con enlaces localizados entre dos átomos. La representación introducida se basa en la separación de los electrones σ- y π- de los enlaces y la deslocalización de electrones también entre más de dos átomos. También permite la descripción de compuestos químicos que contienen enlaces multicéntricos o enlaces coordinativos.

El modelo de enlace de orden cero de Alex Clark enlazado más arriba aborda muchos de estos problemas, pero de una forma compatible con el formato de archivo SD estándar.

Es una respuesta larga, pero si codificas una buena representación gráfica, probablemente puedas codificar un lote de la química.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X