Réseau de neurones formé pour nommer correctement les molécules organiques

Réseau de neurones formé pour nommer correctement les molécules organiques

Démonstration de la tokenisation SMILES (en haut) et de la tokenisation des noms IUPAC (en bas). Crédit : 10.1038/s41598-021-94082-y

Les chercheurs de Skoltech et leurs collègues de l’Université d’État Lomonossov de Moscou et de la start-up Syntelly ont développé et formé un réseau de neurones pour générer des noms de composés organiques conformément au système de nomenclature IUPAC. Leurs recherches publiées dans le Rapports scientifiques montre que les réseaux de neurones modernes sont capables de traiter efficacement des problèmes algorithmiques précis.

La chimie utilise le système de nomenclature de l’IUPAC, l’Union internationale de chimie pure et appliquée, comme langage généralement accepté pour donner des noms aux composés organiques. Par exemple, dans les termes de l’IUPAC, le saccharose est appelé (2R,3R,4S,5S,6R)-2-[(2S,3S,4S, 5R)-3,4-dihydroxy-2,5-bis(hydroxymethyl)oxolan-2-yl]l’oxy-6-(hydroxyméthyl)oxane-3,4,5-triol et le paracétamol, l’ingrédient actif des médicaments antipyrétiques comme le Tylenol, est le N-(4-hydroxyphényl)acétamide.

Étant donné que le nom IUPAC est une représentation complète de la structure d’un composé, les molécules complexes ont tendance à avoir des noms longs et fastidieux. Omettre même un seul chiffre ou symbole est inacceptable, les chimistes doivent donc faire attention à ce qu’ils écrivent et avoir une connaissance approfondie des nombreuses règles de l’IUPAC. Les outils logiciels standard qui génèrent des noms IUPAC sont largement disponibles sur le marché, mais pas les logiciels open source.

“Au départ, nous voulions créer un générateur de noms IUPAC pour Syntelly, notre plateforme de chimie d’IA. Bientôt, nous avons réalisé qu’il nous faudrait plus d’un an pour créer un algorithme en numérisant les règles IUPAC, nous avons donc décidé de tirer parti de notre expérience dans solutions de réseaux de neurones », explique le chercheur de Skoltech Sergey Sosnin, auteur principal de l’étude et co-fondateur de la startup Syntelly.

L’équipe a utilisé l’architecture Transformer, l’un des réseaux de neurones de traduction automatique les plus puissants initialement conçus par Google, comme base de leurs recherches et l’a entraînée à convertir la représentation structurelle d’une molécule en un nom IUPAC et vice versa.

Le nouveau réseau a été formé et testé à l’aide de PubChem, la plus grande base de données chimique ouverte au monde contenant plus de 100 millions de composés. Conçu en six semaines, le réseau a appris à effectuer la conversion avec presque la même précision (environ 99 %) que les solutions algorithmiques basées sur des règles.

De plus, l’étude a montré que les réseaux de neurones peuvent résoudre des problèmes algorithmiques de manière assez précise. “Distinguer un chat d’un chien dans une image est une tâche tout aussi facile pour les humains et les réseaux de neurones, alors qu’il n’y a aucun moyen de faire une solution purement algorithmique efficace. Dans le même temps, multiplier des nombres à plusieurs chiffres est difficile pour les humains mais facile pour une calculatrice primitive qui produit instantanément un résultat absolument précis. Cette tâche et la génération de noms IUPAC sont des exemples de problèmes purement algorithmiques », explique Sosnin.

“Nous avons montré que les réseaux de neurones peuvent faire face à des problèmes précis, réfutant l’idée autrefois répandue selon laquelle ils ne devraient pas être utilisés pour ce genre de problème. Remplacer un mot par un synonyme est tout à fait possible en traduction automatique, alors que dans notre tâche, un seul Un mauvais symbole donne une molécule incorrecte. Pourtant, Transformer s’acquitte de cette tâche avec succès », ajoute Sosnin.

La nouvelle solution a été implémentée dans la plateforme Syntelly et est disponible en ligne. Les chercheurs espèrent que leur méthode pourra être utilisée pour la conversion entre les notations chimiques et pour d’autres tâches liées à la notation technique, telles que la génération de formules mathématiques ou la traduction de logiciels.


Une architecture basée sur un réseau de neurones artificiels à mémoire augmentée


Plus d’information:
Lev Krasnov et al, Réseaux de neurones artificiels à base de transformateurs pour la conversion entre les notations chimiques, Rapports scientifiques (2021). DOI : 10.1038 / s41598-021-94082-y

Fourni par l’Institut des sciences et de la technologie de Skolkovo

Citation: Réseau de neurones formé pour nommer correctement les molécules organiques (2021, 28 juillet) récupéré le 28 juillet 2021 à partir de https://techxplore.com/news/2021-07-neural-network-properly-molecules.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.