Comment détecter le texte généré par l’IA, selon les chercheurs

Texte généré par l’IA, à partir de des outils comme ChatGPT, commence à avoir un impact sur la vie quotidienne. Les enseignants le testent dans le cadre des cours en classe. Les marketeurs rongent leur frein pour remplacer leurs stagiaires. Les Memers se déchaînent. Moi? Ce serait un mensonge de dire que je ne suis pas un petit anxieux à propos des robots qui viennent pour mon concert d’écriture. (ChatGPT, heureusement, ne peut pas encore sauter sur les appels Zoom et mener des interviews.)

Avec les outils d’IA générative désormais accessibles au public, vous rencontrerez probablement davantage de contenu synthétique lorsque vous naviguez sur le Web. Certains cas peuvent être bénins, comme un quiz BuzzFeed généré automatiquement sur le dessert frit qui correspond à vos convictions politiques. (Êtes-vous beignet démocrate ou zeppole républicain ?) D’autres cas pourraient être plus sinistres, comme une campagne de propagande sophistiquée d’un gouvernement étranger.

Des chercheurs universitaires cherchent des moyens de détecter si une chaîne de mots a été générée par un programme comme ChatGPT. À l’heure actuelle, quel est l’indicateur décisif que tout ce que vous lisez a été créé avec l’aide de l’IA ?

Un manque de surprise.

Entropie, évaluée

Les algorithmes capables d’imiter les modèles d’écriture naturelle existent depuis quelques années de plus que vous ne le pensez. En 2019, Harvard et le MIT-IBM Watson AI Lab ont publié un outil expérimental qui analyse le texte et met en surbrillance les mots en fonction de leur niveau de caractère aléatoire.

Pourquoi cela serait-il utile ? Un générateur de texte IA est fondamentalement une machine à motifs mystique : superbe en mimétisme, faible en lancer de balles courbes. Bien sûr, lorsque vous tapez un e-mail à votre patron ou envoyez un texte de groupe à des amis, votre ton et votre cadence peuvent sembler prévisibles, mais il y a une qualité capricieuse sous-jacente à notre style humain de communication.

Edward Tian, ​​étudiant à Princeton, est devenu viral plus tôt cette année avec un outil expérimental similaire, appelé GPTZero, destiné aux éducateurs. Il évalue la probabilité qu’un élément de contenu ait été généré par ChatGPT en fonction de sa « perplexité » (c’est-à-dire le caractère aléatoire) et de sa « salubrité » (c’est-à-dire la variance). OpenAI, qui est derrière ChatGPT, a abandonné un autre outil conçu pour analyser du texte de plus de 1 000 caractères et porter un jugement. L’entreprise est franche sur les limites de l’outil, comme les faux positifs et l’efficacité limitée en dehors de l’anglais. Tout comme les données en anglais sont souvent de la plus haute priorité pour ceux qui se cachent derrière les générateurs de texte IA, la plupart des outils de détection de texte IA sont actuellement les mieux adaptés pour profiter aux anglophones.

Pourriez-vous sentir si un article de presse a été composé, au moins en partie, par l’IA ? “Ces textes génératifs d’IA, ils ne peuvent jamais faire le travail d’un journaliste comme vous Reece”, déclare Tian. C’est un sentiment bienveillant. CNET, un site Web axé sur la technologie, a publié plusieurs articles écrits par des algorithmes et traînés à travers la ligne d’arrivée par un humain. ChatGPT, pour le moment, manque d’un certain chutzpah, et il hallucine parfois, ce qui pourrait être un problème pour des rapports fiables. Tout le monde sait que les journalistes qualifiés réservent les psychédéliques pour les après-midi.

Entropie, imitée

Bien que ces outils de détection soient utiles pour le moment, Tom Goldstein, professeur d’informatique à l’Université du Maryland, envisage un avenir où ils deviendront moins efficaces, à mesure que le traitement du langage naturel deviendra plus sophistiqué. “Ces types de détecteurs reposent sur le fait qu’il existe des différences systématiques entre le texte humain et le texte machine”, explique Goldstein. “Mais l’objectif de ces entreprises est de créer un texte machine aussi proche que possible du texte humain.” Cela signifie-t-il que tout espoir de détection des médias synthétiques est perdu ? Absolument pas.

Goldstein a travaillé sur un article récent recherchant des méthodes de filigrane possibles qui pourraient être intégrées dans les grands modèles de langage alimentant les générateurs de texte AI. Ce n’est pas infaillible, mais c’est une idée fascinante. N’oubliez pas que ChatGPT essaie de prédire le prochain mot probable dans une phrase et compare plusieurs options au cours du processus. Un filigrane peut être en mesure de désigner certains modèles de mots comme étant interdits au générateur de texte AI. Ainsi, lorsque le texte est numérisé et que les règles du filigrane sont enfreintes plusieurs fois, cela indique qu’un être humain a probablement frappé ce chef-d’œuvre.

Laisser un commentaire