Yo estaba tratando de desarrollar un modelo para predecir los Puntos de Ebullición (BP) dado un nombre químico. Una buena y única (bueno, casi) de manera de codificar un nombre es la sonrisa de la notación de la cadena. Los detalles de la notación son un poco complejo ( ver aquí)
e.g.
Name Smiles BP
Benzene c1ccccc1 80
Propane CCC -42
Ethanol CCO 78
Phenol c1ccc(cc1)O 181
....
Me preguntaba si yo podría ser capaz de extraer características de la Cadena de Sonrisas y usarla para predecir de BP. Un gran conjunto de datos de entrenamiento (~10,000 compuestos) ya está disponible. Una difícil punto puede ser que la notación es sensible a mayúsculas y varios paréntesis tienen un sentido topológico (ramificación) y también ciertos símbolos (= por un doble enlace, # por un enlace triple)
Tradicionalmente, la química de la literatura utiliza contribución del grupo de métodos, pero aquellos que dependen de un humano o de algunos de smart código para analizar las SONRISAS, las cadenas en sus entidades constitutivas (por ejemplo, 3 grupos OH, 1 doble enlace, etc.) Hay buenas thumbrules ya conocidos, por ejemplo, Entre todos los alcanos cada grupo CH2 añade tantos grados a la BP, etc. O Alcoholes de ebullición más alto debido a la vinculación del hidrógeno. Pero me preguntaba si sería mejor dejar que la máquina de aprendizaje del algoritmo de la figura de estos por sí mismo.
Alguna idea sobre qué métodos utilizar? O es pedir demasiado a un algoritmo automatizado?