Un nouvel outil peut extraire des mots-clés de textes dans toutes les langues sur n’importe quel sujet

Cet outil peut extraire des mots-clés de textes dans toutes les langues sur n'importe quel sujet

Il s’appelle YAKE ! (« Yet Another Keyword Extractor »), un programme développé par INESC TEC – Institut pour les systèmes et l’ingénierie informatique, la technologie et la science, au Portugal. Ses développeurs affirment que l’outil peut être utilisé dans des textes de n’importe quelle taille, écrits dans n’importe quelle langue et sur n’importe quel sujet. YAKE ! utilise des statistiques pour comprendre quels mots sont les plus pertinents dans le texte, n’ayant donc pas besoin de la contribution d’autres corpus de textes pour apprendre quels mots sont les plus importants, comme le font généralement les approches d’apprentissage automatique.

Pourquoi avons-nous besoin de mots-clés ?

Les gens peuvent avoir une idée générale que la quantité de données produites chaque jour est énorme. Mais pouvez-vous vraiment imaginer la quantité de données produites en une minute ? Pour chaque minute de 2020, par exemple, les utilisateurs d’Instagram ont partagé 65 000 photos, les utilisateurs de Twitter ont publié 575 000 tweets et Google a effectué 5,7 millions de recherches. Selon Siteefy, au moins 175 nouveaux sites Web sont créés chaque minute et on estime qu’Amazon publie plus de 7 500 livres électroniques Kindle par jour. La même chose se produit avec les articles de presse : Le Washington Post publie à lui seul environ 1 200 articles par jour.

« La nécessité d’organiser et surtout de traiter l’information est due au volume important de données produites chaque jour. Un outil comme YAKE ! est une aide précieuse dans le processus d’extraction automatique d’informations, en obtenant un ensemble de données pertinentes mots-clés qui caractérisent le texte lui-même. Faire cela manuellement serait vraiment impossible », déclare Ricardo Campos, co-développeur de YAKE!.

Si vous êtes étudiant, YAKE! peut vous aider à résumer des textes ou des chapitres de livres que vous devez étudier pour votre prochain examen. Vous pouvez également bénéficier de l’utilisation de YAKE! lors de la recherche d’une tendance sur des articles de presse publiés sur un sujet spécifique (comme COVID-19) ou même des arguments contradictoires sur les discours prononcés par un homme politique spécifique au cours de son mandat. Ce ne sont là que quelques exemples de ce que cet outil pourrait faire pour vous, mais pourquoi devriez-vous l’utiliser pour extraire des mots-clés ?

Une nouvelle façon de trier les informations

« L’extraction de mots-clés est un défi particulièrement complexe qui présente une efficacité/performance relativement faible. YAKE ! peut aider n’importe qui à extraire des mots-clés et à trier les informations facilement et rapidement », déclare Ricardo Campos. L’une des raisons pour lesquelles il est si rapide est le fait qu’il ne nécessite pas de corpus de texte antérieurs pour fonctionner correctement, contrairement aux solutions d’apprentissage automatique. « Dans notre approche, nous détectons les mots-clés pertinents sur la base de statistiques extraites des documents au lieu d’opérer au-dessus d’une collection de documents », a-t-il ajouté. De plus, YAKE! fonctionne en déplacement, en tant que solution plug-and-play qui peut être utilisée sur des documents de toute taille, langue ou sujet.

La technologie est disponible gratuitement et comprend un site Web où l’on peut extraire des mots-clés d’un texte ou d’une page Web, et une application Android disponible sur le Play Store. Pour les développeurs, il existe également une API qui permet l’intégration de la technologie dans d’autres outils.

L’Index Général & autres applications

YAKE ! a été utilisé dans plusieurs projets jusqu’à présent, mais aucun ne s’est rapproché du travail développé pour l’Index général. Ce projet visait à cataloguer 107 millions d’articles scientifiques, afin de faciliter la recherche des informations qu’ils contiennent. La nouvelle base de données de 38 téraoctets a été lancée en octobre et il s’agit d’un index géant de 19 milliards de mots-clés extraits à l’aide de YAKE ! Logiciel. La collection est disponible sous une licence du domaine public sur Internet Archive, la plus grande archive numérique de préservation de contenu au monde. Cependant, cet outil a été utilisé dans de nombreux contextes différents pour effectuer différentes tâches. Il s’agit notamment de résumer des textes pédagogiques pour une génération automatique ultérieure de questions de compréhension ; la génération de questions de clarification dans les systèmes de questions-réponses, la détection de mots-clés tendance sur Twitter ; l’utilisation de text mining dans les rapports d’accidents ; générer des nuages ​​de mots pour représenter visuellement l’opinion publique concernant COVID-19 sur les réseaux sociaux, et même la génération de poésie persane à partir de corpus en prose.

Nouvellement intégré au portefeuille de solutions open source de John Snow Labs, la bibliothèque de traitement du langage naturel et d’exploration de texte la plus utilisée dans le domaine des affaires, YAKE! est également utilisé par la Bibliothèque nationale de Finlande, par Chartbeat Labs—textacy, et dans le cadre du projet INESC TEC Conta-me Histórias, inclus dans l’archive Web portugaise, arquivo.pt.

Le logiciel est actuellement cité ou utilisé dans plus de 270 articles, avec plus de 860 étoiles sur Github et 141 forks, représentant plus de 1000 installations sur le système Android. En 2018, il a reçu le « Best Short Paper » lors de la plus importante conférence européenne sur la recherche documentaire, l’ECIR.

En plus de Ricardo Campos, l’équipe qui a développé YAKE! est composé d’Alípio Jorge, Célia Nunes, Adam Jatowt, Vítor Mangaravite et Arian Pasquali.


La technologie vocale pour le reste du monde


Plus d’information:
Ricardo Campos et al, YAKE! Extraction de mots-clés à partir de documents uniques à l’aide de plusieurs fonctionnalités locales, Sciences de l’information (2019). DOI: 10.1016/j.ins.2019.09.013

Ricardo Campos et al, Une méthode d’extraction automatique de mots clés basée sur des caractéristiques de texte pour des documents uniques, Avancées dans la recherche d’informations (2018). DOI : 10.1007/978-3-319-76941-7_63

Ricardo Campos et al, YAKE! Extracteur automatique de mots clés indépendant de la collection, Avancées dans la recherche d’informations (2018). DOI : 10.1007/978-3-319-76941-7_80

Fourni par INESC Bruxelles HUB

Citation: Un nouvel outil peut extraire des mots-clés de textes dans toutes les langues sur n’importe quel sujet (2022, 11 janvier) récupéré le 11 janvier 2022 à partir de https://techxplore.com/news/2022-01-tool-keywords-texts-language-topic.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.