Entretien avec Greg Brockman d’OpenAI : GPT-4 n’est pas parfait, mais vous non plus

OpenAI a livré GPT-4 aujourd’hui, le modèle d’IA générateur de texte très attendu, et c’est un travail curieux.

GPT-4 améliore son prédécesseur, GPT-3, de manière essentielle, par exemple en donnant des déclarations plus factuelles et en permettant aux développeurs de prescrire plus facilement son style et son comportement. Il est également multimodal dans le sens où il peut comprendre les images, lui permettant de légender et même d’expliquer en détail le contenu d’une photo.

Mais GPT-4 a de sérieuses lacunes. Comme GPT-3, le modèle “hallucine” les faits et fait des erreurs de raisonnement basiques. Dans un exemple sur le propre blog d’OpenAI, GPT-4 décrit Elvis Presley comme le “fils d’un acteur”. (Aucun de ses parents n’était acteur.)

Pour mieux comprendre le cycle de développement de GPT-4 et ses capacités, ainsi que ses limites, TechCrunch s’est entretenu avec Greg Brockman, l’un des co-fondateurs d’OpenAI et son président, via un appel vidéo mardi.

Invité à comparer GPT-4 à GPT-3, Brockman avait un mot : Différent.

“C’est juste différent”, a-t-il déclaré à TechCrunch. “Il y a encore beaucoup de problèmes et d’erreurs qui [the model] fait… mais vous pouvez vraiment voir le saut de compétence dans des choses comme le calcul ou le droit, où il est passé de très mauvais dans certains domaines à en fait assez bon par rapport aux humains.

Les résultats des tests soutiennent son cas. À l’examen AP Calculus BC, GPT-4 obtient un 4 sur 5 tandis que GPT-3 obtient un 1. (GPT-3.5, le modèle intermédiaire entre GPT-3 et GPT-4, obtient également un 4.) Et dans un examen du barreau simulé, GPT-4 réussit avec un score autour des 10 % des meilleurs candidats ; Le score de GPT-3.5 a oscillé autour des 10 % inférieurs.

En changeant de vitesse, l’un des aspects les plus intrigants de GPT-4 est la multimodalité mentionnée ci-dessus. Contrairement à GPT-3 et GPT-3.5, qui ne pouvaient accepter que des invites textuelles (par exemple, “Rédigez un essai sur les girafes”), GPT-4 peut prendre une invite d’images et de texte pour effectuer une action (par exemple, une image de girafes dans le Serengeti avec l’invite “Combien de girafes sont montrées ici?”).

C’est parce que GPT-4 a été formé sur l’image et des données textuelles alors que ses prédécesseurs n’étaient entraînés que sur du texte. OpenAI dit que les données de formation provenaient de “diverses sources de données sous licence, créées et accessibles au public, qui peuvent inclure des informations personnelles accessibles au public”, mais Brockman s’est opposé lorsque j’ai demandé des détails. (Les données de formation ont déjà causé des problèmes juridiques à OpenAI.)

Les capacités de compréhension d’image du GPT-4 sont assez impressionnantes. Par exemple, remplissez l’invite « Qu’y a-t-il de drôle dans cette image ? Décrivez-le panneau par panneau » plus une image à trois panneaux montrant un faux câble VGA branché sur un iPhone, GPT-4 donne une ventilation de chaque panneau d’image et explique correctement la blague (« L’humour dans cette image vient de l’absurdité de brancher un gros connecteur VGA obsolète dans un petit port de charge de smartphone moderne »).

Un seul partenaire de lancement a accès aux capacités d’analyse d’images de GPT-4 pour le moment – une application d’assistance pour les malvoyants appelée Be My Eyes. Brockman dit que le déploiement plus large, chaque fois qu’il se produira, sera “lent et intentionnel” car OpenAI évalue les risques et les avantages.

“Il y a des problèmes politiques comme la reconnaissance faciale et la façon de traiter les images de personnes que nous devons aborder et résoudre”, a déclaré Brockman. “Nous devons déterminer, par exemple, où se trouvent les zones de danger – où se trouvent les lignes rouges – puis clarifier cela au fil du temps.”

OpenAI a traité des dilemmes éthiques similaires autour de DALL-E 2, son système de conversion texte-image. Après avoir initialement désactivé la fonctionnalité, OpenAI a permis aux clients de télécharger les visages des personnes pour les modifier à l’aide du système de génération d’images alimenté par l’IA. À l’époque, OpenAI affirmait que les mises à niveau de son système de sécurité rendaient possible la fonction d’édition de visage en “minimisant le potentiel de préjudice” des deepfakes ainsi que des tentatives de création de contenu sexuel, politique et violent.

Un autre pérenne empêche le GPT-4 d’être utilisé de manière involontaire qui pourrait causer des dommages – psychologiques, monétaires ou autres. Quelques heures après la sortie du modèle, la startup israélienne de cybersécurité Adversa AI a publié un article de blog démontrant des méthodes pour contourner les filtres de contenu d’OpenAI et faire en sorte que GPT-4 génère des e-mails de phishing, des descriptions offensantes de personnes homosexuelles et d’autres textes très répréhensibles.

Ce n’est pas un phénomène nouveau dans le domaine des modèles de langage. BlenderBot de Meta et ChatGPT d’OpenAI ont également été incités à dire des choses extrêmement offensantes, et même à révéler des détails sensibles sur leur fonctionnement interne. Mais beaucoup avaient espéré, y compris ce journaliste, que GPT-4 pourrait apporter des améliorations significatives sur le front de la modération.

Interrogé sur la robustesse de GPT-4, Brockman a souligné que le modèle avait suivi six mois de formation à la sécurité et que, lors de tests internes, il était 82% moins susceptible de répondre aux demandes de contenu refusé par la politique d’utilisation d’OpenAI et 40% plus susceptible pour produire des réponses « factuelles » que GPT-3.5.

“Nous avons passé beaucoup de temps à essayer de comprendre de quoi le GPT-4 est capable”, a déclaré Brockman. « C’est en le diffusant dans le monde que nous apprenons. Nous faisons constamment des mises à jour, incluons un tas d’améliorations, afin que le modèle soit beaucoup plus évolutif, quelle que soit la personnalité ou le type de mode dans lequel vous souhaitez qu’il soit.

Les premiers résultats dans le monde réel ne sont pas si prometteurs, franchement. Au-delà des tests Adversa AI, Bing Chat, le chatbot de Microsoft alimenté par GPT-4, s’est avéré très sensible au jailbreak. En utilisant des entrées soigneusement adaptées, les utilisateurs ont pu amener le bot à professer l’amour, à menacer de nuire, à défendre l’Holocauste et à inventer des théories du complot.

Brockman n’a pas nié que GPT-4 est en deçà, ici. Mais il a mis l’accent sur les nouveaux outils de pilotage atténuants du modèle, y compris une capacité au niveau de l’API appelée messages « système ». Les messages système sont essentiellement des instructions qui donnent le ton – et établissent des limites – pour les interactions de GPT-4. Par exemple, un message système pourrait lire : « Vous êtes un tuteur qui répond toujours dans le style socratique. Toi jamais donnez la réponse à l’élève, mais essayez toujours de poser la bonne question pour l’aider à apprendre à penser par lui-même.

L’idée est que les messages système agissent comme des garde-corps pour empêcher le GPT-4 de dévier de sa trajectoire.

“Vraiment comprendre le ton, le style et la substance de GPT-4 ont été une grande priorité pour nous”, a déclaré Brockman. “Je pense que nous commençons à comprendre un peu mieux comment faire de l’ingénierie, comment avoir un processus reproductible qui vous permet d’obtenir des résultats prévisibles qui seront vraiment utiles aux gens.”

La conversation de Brockman et moi a également abordé la fenêtre contextuelle de GPT-4, qui fait référence au texte que le modèle peut prendre en compte avant de générer du texte supplémentaire. OpenAI teste une version de GPT-4 qui peut “se souvenir” d’environ 50 pages de contenu, soit cinq fois plus que le GPT-4 vanille peut contenir dans sa “mémoire” et huit fois plus que GPT-3.

Brockman pense que la fenêtre contextuelle élargie mène à de nouvelles applications jusque-là inexplorées, en particulier dans l’entreprise. Il envisage un chatbot IA conçu pour une entreprise qui exploite le contexte et les connaissances de différentes sources, y compris les employés de tous les départements, pour répondre aux questions de manière très informée mais conversationnelle.

Ce n’est pas un nouveau concept. Mais Brockman fait valoir que les réponses de GPT-4 seront bien plus utiles que celles des chatbots et des moteurs de recherche d’aujourd’hui.

“Auparavant, le modèle n’avait aucune connaissance de qui vous êtes, de ce qui vous intéresse, etc.”, a déclaré Brockman. “Avoir ce genre d’histoire [with the larger context window] va certainement le rendre plus capable… Cela va dynamiser ce que les gens peuvent faire.

Laisser un commentaire