Système d’extraction automatique d’informations pour les articles scientifiques sur le COVID-19

Système d'extraction automatique d'informations pour les articles scientifiques sur le COVID-19

Eneko Agirre et Xabier Saralegi. Crédit : UPV / EHU

Des chercheurs de l’UPV/EHU-Université du Pays basque, de l’UNED (Université nationale d’enseignement à distance) et d’Elhuyar ont créé le système VIGICOVID, grâce au financement Supera COVID-19 (Surmonter COVID-19) de la CRUE (Association des universités espagnoles ). Ce système répond au besoin de chercher des réponses dans l’avalanche d’informations générées par toutes les recherches menées à travers le monde relatives à la pandémie. Grâce à l’intelligence artificielle, le système affiche les réponses trouvées dans un ensemble d’articles scientifiques de manière ordonnée et utilise des questions et réponses en langage naturel.

La communauté mondiale de la recherche en biosanté déploie des efforts considérables pour générer des connaissances sur le COVID-19 et le SRAS-CoV-2. En pratique, cet effort se traduit par une production énorme et très rapide de publications scientifiques, ce qui rend difficile la consultation et l’analyse de toutes les informations. C’est pourquoi les experts et les instances décisionnelles doivent être dotés de systèmes d’information leur permettant d’acquérir les connaissances dont ils ont besoin.

Dans une nouvelle étude, sous la coordination du groupe de recherche UNED, les chercheurs ont créé un prototype pour extraire des informations par le biais de questions et réponses en langage naturel à partir d’un ensemble mis à jour d’articles scientifiques sur COVID-19 et SARS-CoV-2 publiés par le Global communauté de recherche.

“Le paradigme de la recherche d’informations est en train de changer grâce à l’intelligence artificielle”, a déclaré Eneko Agirre, responsable du centre HiTZ de l’UPV/EHU. “Jusqu’à présent, lors de la recherche d’informations sur Internet, une question était saisie et la réponse devait être recherchée dans les documents affichés par le système. Cependant, conformément au nouveau paradigme, les systèmes qui fournissent la réponse directement sans aucun besoin lire l’intégralité du document sont de plus en plus répandus.”

Dans ce système, “l’utilisateur ne demande pas d’informations à l’aide de mots-clés, mais pose directement une question”, explique Xabier Saralegi, chercheur chez Elhuyar. Le système recherche les réponses à cette question en deux temps : “Dans un premier temps, il récupère les documents pouvant contenir la réponse à la question posée en utilisant une technologie qui combine des mots-clés avec des questions directes. C’est pourquoi nous avons exploré les architectures neuronales”, a ajouté le Dr. .Saralegi. Des architectures neuronales profondes alimentées par des exemples ont été utilisées : “Cela signifie que les modèles de recherche et les modèles de réponse aux questions sont entraînés au moyen de l’apprentissage automatique en profondeur.”

Une fois l’ensemble des documents extraits, ils sont retraités par un système de questions-réponses afin d’obtenir des réponses précises : « Nous avons construit le moteur qui répond aux questions ; lorsque le moteur reçoit une question et un document, il est capable pour détecter si oui ou non la réponse est dans le document, et si c’est le cas, il nous dit exactement où elle se trouve », a expliqué le Dr Agirre.

Un prototype facilement commercialisable

“Parmi les techniques et les évaluations que nous avons analysées dans nos expériences, nous avons retenu celles qui donnent au prototype les meilleurs résultats”, a déclaré le chercheur d’Elhuyar. Une base technologique solide a été établie et plusieurs articles scientifiques sur le sujet ont été publiés. “Nous avons trouvé une autre façon d’effectuer des recherches chaque fois que des informations sont nécessaires de toute urgence, ce qui facilite le processus d’utilisation des informations. Au niveau de la recherche, nous avons montré que la technologie proposée fonctionne et que le système donne de bons résultats”, a déclaré Agirre. souligné.

“Notre résultat est un prototype d’un projet de recherche fondamentale. Ce n’est pas un produit commercial”, a souligné Saralegi. Mais de tels prototypes peuvent être modélisés facilement en peu de temps, ce qui signifie qu’ils peuvent être commercialisés et mis à la disposition de la société. Ces chercheurs soulignent que l’intelligence artificielle permet de mettre à disposition des outils de plus en plus puissants pour travailler avec de grandes bases documentaires. “Nous progressons très rapidement dans ce domaine. De plus, tout ce qui est étudié peut facilement arriver sur le marché”, conclut le chercheur UPV/EHU.


Les chercheurs utilisent l’IA pour aider les entreprises à comprendre le Code of Federal Regs et d’autres documents juridiques


Plus d’information:
Arantxa Otegi et al, Recherche d’informations et réponse aux questions : une étude de cas sur la littérature scientifique COVID-19, Systèmes basés sur la connaissance (2021). DOI : 10.1016/j.knosys.2021.108072

Fourni par Université du Pays Basque

Citation: Système d’extraction automatique d’informations pour les articles scientifiques sur le COVID-19 (2022, 31 mars) récupéré le 31 mars 2022 sur https://techxplore.com/news/2022-03-automatic-scientific-articles-covid-.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.