Un modèle pour l’extraction automatique de contenu à partir de sites Web et d’applications

code informatique

Crédit : Pixabay/CC0 Domaine public

Les systèmes de gestion de contenu ou CMS sont l’outil le plus populaire pour créer du contenu sur Internet. Ces dernières années, ils ont évolué pour devenir l’épine dorsale d’un écosystème de plus en plus complexe de sites Web, d’applications mobiles et de plateformes. Afin de simplifier les processus, une équipe de chercheurs de l’Institut interdisciplinaire Internet (IN3) de l’Universitat Oberta de Catalunya (UOC) a développé un modèle open source pour automatiser l’extraction de contenu à partir de CMS. Leurs recherches associées sont publiées dans Défis de la recherche en sciences de l’information.

Le modèle open-source est un prototype scientifique entièrement fonctionnel qui permet d’extraire la structure de données et les bibliothèques de chaque CMS et de créer un logiciel qui agit comme un intermédiaire entre le contenu et le soi-disant front-end (le application utilisée par l’utilisateur). Tout ce processus se fait automatiquement, ce qui en fait une solution sans erreur et évolutive, car il peut être répété plusieurs fois sans augmenter son coût.

L’importance des CMS dans le monde en ligne

Les systèmes de gestion de contenu (CMS) sont à l’origine de plus de 60 % des pages actuellement disponibles en ligne. Des systèmes tels que WordPress, Joomla et Drupal sont devenus populaires principalement parce qu’ils offrent une expérience utilisateur simple, ce qui a permis à toutes sortes d’utilisateurs non techniques de faire partie de la chaîne de création de contenu en ligne.

« Ces quatre ou cinq dernières années, ces systèmes ont fourni des informations non seulement aux navigateurs, mais aussi aux applications mobiles. Les CMS disposent d’interfaces de programmation d’applications (API) avec lesquelles les applications mobiles communiquent pour extraire du contenu », explique Joan Giner Miguélez, étudiant au programme de doctorat en technologies des réseaux et de l’information avec le groupe du laboratoire de recherche sur les systèmes, les logiciels et les modèles (laboratoire de recherche SOM) et auteur principal de l’étude qui décrit le nouveau modèle. “Ces systèmes, connus sous le nom de CMS sans tête, permettent au contenu, créé de manière simple, d’être consommé ultérieurement sur différentes plates-formes.”

Les CMS sont donc devenus un grand conteneur de contenus et de données utilisé par chaque application ou plateforme. Cela a simplifié de nombreux processus mais a également ajouté des complexités en termes de développement qui sont particulièrement évidentes pour les organisations qui gèrent un volume élevé de contenus et de plateformes. Il est de plus en plus courant que la création d’une nouvelle application mobile implique un travail de développement complexe, et ces tâches sont simplifiées par le modèle conçu par les chercheurs de l’IN3.

“Imaginez une grande entreprise de contenu qui gère plus d’un millier de sites Web et d’applications et souhaite créer une nouvelle application mobile qui affiche les produits de chacun de ces sites Web. S’ils veulent développer les connecteurs entre chaque site Web et l’application, le travail serait immense. et gourmand en ressources. Il n’est pas évolutif », a ajouté Joan Giner. “Si les API sont déjà dans un format standard, pourquoi ne pas également créer un extracteur de contenu qui lit et comprend les API, les représente de manière standard et génère le connecteur pour envoyer automatiquement les informations à la nouvelle application mobile ? “

Automatisation de l’extraction de contenu depuis les CMS

Le modèle développé par Giner, en collaboration avec ses partenaires de recherche Abel Gómez et Jordi Cabot, chercheur à l’ICREA et responsable du laboratoire de recherche SOM, simplifie considérablement le processus de développement d’une nouvelle application et, à son tour, entraîne des économies importantes en termes de temps et Ressources. Le processus, qui a été développé grâce au financement des projets européens AIDOaRT et TRANSACT, vise à extraire et représenter le modèle CMS de manière claire et automatique pour faciliter son utilisation comme source d’information. De plus, la proposition technologique des chercheurs de l’IN3 vise à générer le code qui fera le lien entre le CMS et le développement de nouvelles applications.

Pour ce faire, la première étape consiste à donner à l’outil l’adresse et les informations de connexion au CMS. Une fois connecté, il lit l’API, la comprend et utilise un processus de rétro-ingénierie pour représenter la structure et les bibliothèques de contenu du CMS de manière standard. Sur cette base, il génère automatiquement le code du connecteur à travers lequel le CMS et la nouvelle application mobile en cours de développement vont communiquer.

« C’est une manière d’uniformiser le processus entre le CMS et l’application finale », souligne Joan Giner. “Son plus grand avantage est, en fait, la standardisation elle-même. Nous parlons d’un processus qui se répète fréquemment dans les organisations qui gèrent du contenu ; un processus qui, à chaque fois qu’il est exécuté, implique la mise en place d’une équipe de développement spécifique qui nécessite des dépenses en une série de ressources et qui, en plus, peuvent générer des erreurs. Grâce à l’automatisation, tout est simplifié et devient plus évolutif.”

Ainsi, ce modèle d’automatisation des extractions de CMS met l’accent sur la scalabilité, puisqu’une fois l’outline et le code du CMS créés, celui-ci peut être réutilisé autant de fois que nécessaire et intégré dans de futurs projets de développement sans surcoût.

Les chercheurs soulignent également qu’il s’agit d’un modèle automatique qui crée des bibliothèques de contenu sans erreur, alors que, si le travail est fait manuellement, les développeurs peuvent toujours se tromper dans une ligne de code.

« Les systèmes de gestion de contenu sont une source majeure de contenu sur Internet. Nous permettons de standardiser l’accès aux CMS, tout comme l’accès aux bases de données était standardisé par le passé », conclut Joan Giner. “À l’avenir, ce modèle pourrait même être utilisé pour transformer les CMS en une nouvelle source de données pour la formation des systèmes d’intelligence artificielle.”


Les non-programmeurs construisent de plus en plus de logiciels dans le monde : un informaticien explique le « sans code »


Plus d’information:
Joan Giner-Miguelez et al, Activation des systèmes de gestion de contenu en tant que source d’information dans les projets pilotés par modèle, Défis de la recherche en sciences de l’information (2022). DOI : 10.1007/978-3-031-05760-1_30

Fourni par Universitat Oberta de Catalunya

Citation: A model for the automatic extraction of content from webs and apps (17 juin 2022) récupéré le 17 juin 2022 sur https://techxplore.com/news/2022-06-automatic-content-webs-apps.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.