Le créateur de ChatGPT annonce un modèle d’IA amélioré qui peut “voir” | Actualités scientifiques et techniques

Le créateur de ChatGPT publie une version améliorée de l’IA derrière son puissant chatbot qui peut reconnaître les images.

Le logiciel impressionnant d’OpenAI a pris d’assaut Internet à la fin de l’année dernière avec sa capacité à générer des réponses de type humain à presque toutes les invites de texte que vous lui lancez, de créer des histoires venir avec lignes de discussion.

Cela s’est avéré une telle révélation que le géant de la technologie Microsoft utilise une version de la même technologie que l’épine dorsale de son nouveau moteur de recherche Bingalors que son rival Google développe son propre chatbot.

OpenAI a maintenant dévoilé la prochaine génération du modèle GPT, baptisé GPT-4 (ChatGPT est alimenté par GPT-3.5).

Il s’agit d’un “grand modèle multimodal” qui, selon la firme, “peut résoudre des problèmes difficiles avec une grande précision, grâce à ses connaissances générales plus larges et à ses capacités de résolution de problèmes”.

Qu’est-ce qu’un « modèle multimodal » ?

Alors que ChatGPT est basé sur un modèle de langage uniquement capable de reconnaître et de produire du texte, un modèle multimodal suggère la possibilité de le faire avec différentes formes de médias.

Le professeur Oliver Lemon, un expert en IA de l’Université Heriot-Watt d’Édimbourg, a expliqué : “Cela signifie qu’il ne combine pas seulement du texte, mais potentiellement des images.

“Vous interagiriez non seulement dans une conversation avec du texte, mais vous seriez capable de poser des questions sur les images.”

Dans un article de blog annonçant GPT-4, OpenAI a confirmé qu’il peut accepter les entrées d’image, les reconnaître et les expliquer.

Dans un exemple, on demande au modèle d’expliquer pourquoi une certaine image est drôle.

OpenAI a déclaré que GPT-4 “présente des performances de niveau humain sur divers critères professionnels et académiques”, avec des résultats améliorés sur la précision factuelle par rapport aux versions précédentes.

La version est limitée aux abonnés au Premium ChatGPT Plus de la société, tandis que les autres doivent s’inscrire sur une liste d’attente.

La nouvelle IA peut “voir”

L’annonce d’OpenAI intervient après qu’un dirigeant de Microsoft a annoncé que GPT-4 serait publié cette semaine.

Le géant américain de la technologie a récemment investi plusieurs milliards de dollars dans l’entreprise.

S’exprimant sur scène la semaine dernière, comme l’a rapporté le site d’information allemand Heise, le directeur de la technologie de Microsoft Allemagne, Andreas Braun, a déclaré que la reconnaissance d’image ferait effectivement partie des capacités du GPT-4.

Andrej Karpathy, un employé d’OpenAI, a tweeté que cette fonctionnalité signifiait que l’IA pouvait “voir”.

Cependant, toute attente selon laquelle GPT-4 pourrait être en mesure de générer des images de la même manière que GPT-3.5 peut générer du texte semble avoir été loin de la vérité.

Il existe déjà des outils d’intelligence artificielle dédiés à la génération d’images, tels que le propre Dall-E 2 d’OpenAI. Il peut créer des images à partir de simples invites de texte.

D’autres IA génératives en cours d’élaboration dans des entreprises comme Meta et Google peuvent produire de la vidéo et de la musique.

Le nom Make-A-Video de Meta n’a pas encore été rendu public, mais la société affirme qu’il permet aux utilisateurs de générer des clips vidéo accrocheurs et partageables à partir d’invites de texte.

Les chercheurs de Google ont révélé plus tôt cette année qu’ils avaient créé une IA capable de créer de courtes pistes musicales, encore une fois basées uniquement sur de courtes invites de texte. Comme l’outil vidéo de Meta, il n’est pas accessible au public.

En savoir plus:
Comment les enseignants font face à ChatGPT
ChatGPT recommandé pour un entretien d’embauche

Veuillez utiliser le navigateur Chrome pour un lecteur vidéo plus accessible

Ce chatbot remplacera-t-il les humains ?

Le succès de ChatGPT a apparemment forcé la main des entreprises technologiques qui semblaient désireuses d’être prudentes quant au déploiement de leurs propres technologies d’IA.

Google aurait accéléré ses plans pour un chatbot ambitieux nommé Bard en conséquence, avoir imposé des restrictions strictes sur les modèles précédemment publiés.

Les entreprises technologiques ont souvent été brûlées en publiant une IA insuffisamment cuite pour que le public puisse l’utiliser. En 2016, Microsoft avait le visage rouge quand un chatbot appelé Tay a appris à dire des choses offensantes.

Laisser un commentaire