Plusieurs sociétés d'IA contournent le protocole d'exclusion des robots (robots.txt) pour extraire le contenu des sites Web sans autorisation, selon TollBit, une startup de licences de contenu, rapporte Reuters. Ce problème a donné lieu à des différends entre les sociétés d'IA et les éditeurs, Forbes accusant Perplexity de plagier son contenu.
La lettre de TollBit aux éditeurs, obtenue par Reuters, révèle que de nombreux agents d'IA ignorent la norme robots.txt, qui est utilisée pour empêcher l'exploration de certaines parties d'un site. Les analyses de l'entreprise indiquent un schéma de non-conformité généralisé, car diverses IA utilisent des données pour s'entraîner sans autorisation. La startup de recherche d'IA Perplexity, en particulier, a été accusée par Forbes d'utiliser ses articles d'enquête dans des résumés générés par l'IA sans attribution ou autorisation appropriée. Perplexity n’a pas commenté ces allégations.
Le protocole robots.txt, créé au milieu des années 1990, visait à empêcher les robots d'exploration de surcharger les sites Web. Bien qu’elle n’ait aucune application légale, elle a traditionnellement été largement respectée, semble-t-il jusqu’à présent. Les éditeurs utilisent ce protocole pour bloquer l'utilisation de contenu non autorisé par les systèmes d'IA, qui récupèrent le contenu pour entraîner des algorithmes et générer des résumés.
“Ce que cela signifie en termes pratiques, c'est que les agents d'IA provenant de plusieurs sources (et non d'une seule entreprise) choisissent de contourner le protocole robots.txt pour récupérer le contenu des sites”, a écrit TollBit, selon Reuters. “Plus nous ingérons de journaux d'éditeurs, plus ce modèle apparaît.”
Certains éditeurs, comme le New York Times, ont engagé des poursuites judiciaires contre des sociétés d'IA pour violation du droit d'auteur. D'autres ont choisi de négocier des accords de licence. Ce débat en cours met en évidence les points de vue contradictoires sur la valeur et la légalité de l’utilisation de contenu pour former l’IA générative, car de nombreux développeurs d’IA soutiennent que l’accès au contenu sans frais ne viole aucune loi, à moins, bien sûr, qu’il s’agisse de contenu payant.
Le problème a pris de l’importance à mesure que les résumés d’actualités générés par l’IA deviennent plus courants. Le produit d'IA de Google, qui crée des résumés en réponse aux requêtes de recherche, a aggravé les inquiétudes des éditeurs. Pour empêcher leur contenu d'être utilisé par l'IA de Google, les éditeurs le bloquent à l'aide du fichier robots.txt, mais cela supprime leur contenu des résultats de recherche et impacte leur visibilité en ligne. Pendant ce temps, si les IA ignorent le fichier robots.txt, alors à quoi bon les propriétaires de contenu l'utilisent sans effet, et perdre de la visibilité en ligne ?
TollBit a également un cheval de bataille dans cette course à l'IA et au contenu éditorial, en se positionnant comme un intermédiaire entre les sociétés d'IA et les éditeurs, aidant à établir des accords de licence pour l'utilisation du contenu. La startup suit le trafic de l'IA vers les sites Web des éditeurs et fournit des analyses pour négocier les frais pour différents types de contenu, y compris le contenu premium. TollBit affirme avoir 50 sites Web utilisant ses services en mai, mais n'a pas divulgué leurs noms.