ChatGPT a du mal avec les puzzles Wordle, ce qui en dit long sur son fonctionnement

ChatGPT a du mal avec les puzzles Wordle, ce qui en dit long sur son fonctionnement

Crédit : Shutterstock / DVKi

Le chatbot AI connu sous le nom de ChatGPT, développé par la société OpenAI, a attiré l’attention et l’imagination du public. Certaines applications de la technologie sont vraiment impressionnantes, comme sa capacité à résumer des sujets complexes ou à engager de longues conversations.

Il n’est pas surprenant que d’autres sociétés d’intelligence artificielle se soient précipitées pour publier leurs propres grands modèles de langage (LLM), le nom de la technologie sous-jacente aux chatbots comme ChatGPT. Certains de ces LLM seront intégrés à d’autres produits, tels que les moteurs de recherche.

Avec ses capacités impressionnantes à l’esprit, j’ai décidé de tester le chatbot sur Wordle, le jeu de mots du New York Times, auquel je joue depuis un certain temps. Les joueurs ont six tentatives pour deviner un mot de cinq lettres. À chaque supposition, le jeu indique quelles lettres, le cas échéant, sont dans les bonnes positions dans le mot.

En utilisant la dernière génération, appelée ChatGPT-4, j’ai découvert que ses performances sur ces puzzles étaient étonnamment médiocres. Vous pourriez vous attendre à ce que les jeux de mots soient un jeu d’enfant pour GPT-4. Les LLM sont “formés” sur le texte, ce qui signifie qu’ils sont exposés à des informations afin qu’ils puissent s’améliorer dans ce qu’ils font. ChatGPT-4 a été formé sur environ 500 milliards de mots : tout Wikipédia, tous les livres du domaine public, d’énormes volumes d’articles scientifiques et du texte de nombreux sites Web.

Les chatbots IA pourraient jouer un rôle majeur dans nos vies. Comprendre pourquoi ChatGPT-4 se débat avec Wordle donne un aperçu de la façon dont les LLM représentent et fonctionnent avec les mots, ainsi que les limitations que cela entraîne.

Tout d’abord, j’ai testé ChatGPT-4 sur un puzzle Wordle où je connaissais les emplacements corrects de deux lettres dans un mot. Le motif était “#E#L#”, où “#” représentait les lettres inconnues. La réponse était le mot “farineux”.

Cinq des six réponses de ChatGPT-4 ne correspondaient pas au modèle. Les réponses étaient : “beryl”, “feral”, “heral”, “merle”, “revel” et “pearl”.

Avec d’autres combinaisons, le chatbot trouvait parfois des solutions valables. Mais, dans l’ensemble, c’était très hasardeux. Dans le cas d’un mot correspondant au modèle “##OS#”, il a trouvé cinq options correctes. Mais lorsque le modèle était “#R#F#”, il proposait deux mots sans la lettre F, et un mot – “Traff” – qui n’est pas dans les dictionnaires.

Sous la capuche

Au cœur de ChatGPT se trouve un réseau neuronal profond : une fonction mathématique complexe (ou règle) qui mappe les entrées aux sorties. Les entrées et les sorties doivent être des nombres. Étant donné que ChatGPT-4 fonctionne avec des mots, ceux-ci doivent être “traduits” en nombres pour que le réseau de neurones fonctionne avec eux.

La traduction est effectuée par un programme informatique appelé tokenizer, qui maintient une énorme liste de mots et de séquences de lettres, appelées “tokens”. Ces jetons sont identifiés par des numéros. Un mot tel que “ami” a un ID de jeton de 6756, donc un mot tel que “amitié” est décomposé en jetons “ami” et “navire”. Ceux-ci sont représentés par les identifiants 6756 et 6729.

Lorsque l’utilisateur saisit une question, les mots sont traduits en nombres avant même que ChatGPT-4 ne commence à traiter la demande. Le réseau neuronal profond n’a pas accès aux mots en tant que texte, il ne peut donc pas vraiment raisonner sur les lettres.

Tâche de poème

ChatGPT-4 fonctionne bien avec les premières lettres des mots. Je lui ai demandé d’écrire un poème où la lettre d’ouverture de chaque ligne épelait “J’aime les robots”. Sa réponse a été étonnamment bonne. Voici les quatre premières lignes :

Je suis fan des engrenages et de l’acier

Aimant leurs mouvements, si surréalistes,

Sur les circuits, ils règnent rapidement

En lice pour la connaissance, ils ne sont pas idiots,

Les données de formation pour ChatGPT-4 incluent un grand nombre de manuels, qui incluent souvent des index alphabétiques. Cela aurait pu être suffisant pour que GPT-4 ait appris les associations entre les mots et leurs premières lettres.

Le tokenizer semble également avoir été modifié pour reconnaître des demandes comme celle-ci, et semble diviser une phrase telle que “I Love Robots” en jetons individuels lorsque les utilisateurs saisissent leur demande. Cependant, ChatGPT-4 n’a pas été en mesure de gérer les demandes de travail avec les dernières lettres des mots.

ChatGPT-4 est également mauvais pour les palindromes. Invité à produire une phrase palindrome sur un robot, il a proposé “un robot’s sot, orba”, qui ne correspond pas à la définition d’un palindrome et repose sur des mots obscurs.

Cependant, les LLM sont relativement bons pour générer d’autres programmes informatiques. En effet, leurs données de formation incluent de nombreux sites Web consacrés à la programmation. J’ai demandé à ChatGPT-4 d’écrire un programme pour déterminer l’identité des lettres manquantes dans Wordle.

Le programme initial produit par ChatGPT-4 contenait un bogue. Il a corrigé cela lorsque je l’ai signalé. Lorsque j’ai exécuté le programme, il a trouvé 48 mots valides correspondant au modèle “#E#L#”, y compris “tells”, “cells” et “hello”. Lorsque j’avais précédemment demandé directement à GPT-4 de proposer des correspondances pour ce modèle, il n’en avait trouvé qu’une seule.

Corrections futures

Il peut sembler surprenant qu’un grand modèle de langage comme ChatGPT-4 ait du mal à résoudre des énigmes de mots simples ou à formuler des palindromes, car les données d’entraînement incluent presque tous les mots à sa disposition.

Cependant, cela est dû au fait que toutes les entrées de texte doivent être codées sous forme de nombres et que le processus qui le fait ne capture pas la structure des lettres dans les mots. Étant donné que les réseaux de neurones fonctionnent uniquement avec des nombres, l’exigence d’encoder les mots sous forme de nombres ne changera pas.

Les futurs LLM peuvent surmonter cela de deux manières. Tout d’abord, ChatGPT-4 connaît la première lettre de chaque mot, de sorte que ses données de formation pourraient être augmentées pour inclure des mappages de chaque position de lettre dans chaque mot de son dictionnaire.

La seconde est une solution plus excitante et générale. Les futurs LLM pourraient générer du code pour résoudre des problèmes comme celui-ci, comme je l’ai montré. Un article récent a démontré une idée appelée Toolformer, où un LLM utilise des outils externes pour effectuer des tâches où ils ont normalement du mal, comme les calculs arithmétiques.

Nous en sommes aux premiers jours de ces technologies, et des informations comme celle-ci sur les limitations actuelles peuvent conduire à des technologies d’IA encore plus impressionnantes.

Fourni par La Conversation

Cet article est republié de The Conversation sous une licence Creative Commons. Lire l’article d’origine.La conversation

Citation: ChatGPT a du mal avec les puzzles Wordle, ce qui en dit long sur son fonctionnement (27 mars 2023) récupéré le 27 mars 2023 sur https://techxplore.com/news/2023-03-chatgpt-struggles-wordle-puzzles-lot. html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.

Laisser un commentaire