Le DevDay d'OpenAI apporte une API en temps réel et d'autres avantages aux développeurs d'applications d'IA

La semaine a été tumultueuse pour OpenAI, pleine de départs de dirigeants et de développements majeurs en matière de collecte de fonds, mais la startup est de retour, essayant de convaincre les développeurs de créer des outils avec ses modèles d'IA lors de son DevDay 2024. La société a annoncé mardi plusieurs nouveaux outils, notamment une version bêta publique de son « API en temps réel », permettant de créer des applications avec des réponses vocales générées par l'IA à faible latence. Ce n'est pas tout à fait le mode vocal avancé de ChatGPT, mais c'est proche.

Lors d'un point de presse avec les journalistes avant l'événement, Kevin Weil, directeur des produits d'OpenAI, a déclaré que les récents départs de la directrice de la technologie Mira Murati et du directeur de la recherche Bob McGrew n'affecteraient pas les progrès de l'entreprise.

« Je commencerai par dire que Bob et Mira ont été des leaders formidables. J'ai beaucoup appris d'eux, et ils jouent un rôle majeur dans notre réussite actuelle », a déclaré Weil. “Et aussi, nous n'allons pas ralentir.”

Alors qu'OpenAI subit une nouvelle refonte de la C-suite – un rappel des troubles qui ont suivi le DevDay de l'année dernière – la société tente de convaincre les développeurs qu'elle offre toujours la meilleure plate-forme sur laquelle créer des applications d'IA. Les dirigeants affirment que la startup compte plus de 3 millions de développeurs qui construisent avec ses modèles d'IA, mais OpenAI opère dans un espace de plus en plus compétitif.

OpenAI a indiqué qu'elle avait réduit de 99 % les coûts d'accès des développeurs à son API au cours des deux dernières années, bien qu'elle y ait probablement été contrainte par des concurrents tels que Meta et Google, qui sous-cotaient continuellement leurs prix.

L'une des nouvelles fonctionnalités d'OpenAI, baptisée Realtime API, donnera aux développeurs la possibilité de créer des expériences de parole en temps quasi réel dans leurs applications, avec le choix d'utiliser six voix fournies par OpenAI. Ces voix sont distinctes de celles proposées pour ChatGPT, et les développeurs ne peuvent pas utiliser de voix tierces, afin d'éviter les problèmes de droits d'auteur. (La voix basée de manière ambiguë sur celle de Scarlett Johansson n'est disponible nulle part.)

Au cours du briefing, Romain Huet, responsable de l'expérience développeur d'OpenAI, a partagé une démo d'une application de planification de voyage construite avec l'API Realtime. L'application permettait aux utilisateurs de parler verbalement avec un assistant IA d'un prochain voyage à Londres et d'obtenir des réponses à faible latence. L'API Realtime a également accès à un certain nombre d'outils, de sorte que l'application a pu annoter une carte avec les emplacements des restaurants au fur et à mesure qu'elle répondait.

À un autre moment, Huet a montré comment l'API Realtime pouvait parler au téléphone avec un humain pour se renseigner sur la commande de nourriture pour un événement. Contrairement au tristement célèbre Duo de Google, l'API d'OpenAI ne peut pas appeler directement les restaurants ou les magasins ; cependant, il peut s'intégrer à des API appelantes comme Twilio pour ce faire. Notamment, OpenAI est pas ajouter des informations afin que ses modèles d'IA s'identifient automatiquement lors d'appels comme celui-ci, malgré le fait que ces voix générées par l'IA semblent assez réalistes. Pour l'instant, il semble qu'il incombe aux développeurs d'ajouter cette divulgation, ce qui pourrait être exigé par une nouvelle loi californienne.

Dans le cadre de ses annonces DevDay, OpenAI a également introduit le réglage fin de la vision dans son API, qui permettra aux développeurs d'utiliser des images, ainsi que du texte, pour affiner leurs applications de GPT-4o. Cela devrait, en théorie, aider les développeurs à améliorer les performances de GPT-4o pour les tâches impliquant une compréhension visuelle. Le responsable de l'API produit d'OpenAI, Olivier Godement, a déclaré à Testeur Joe que les développeurs ne pourront pas télécharger d'images protégées par le droit d'auteur (comme une photo de Donald Duck), des images illustrant la violence ou d'autres images qui violent les politiques de sécurité d'OpenAI.

OpenAI s'efforce d'égaler ce que proposent déjà ses concurrents dans le domaine des licences de modèles d'IA. Sa fonctionnalité de mise en cache rapide est similaire à la fonctionnalité Anthropic lancée il y a plusieurs mois, permettant aux développeurs de mettre en cache le contexte fréquemment utilisé entre les appels d'API, réduisant ainsi les coûts et améliorant la latence. OpenAI affirme que les développeurs peuvent économiser 50 % en utilisant cette fonctionnalité, tandis qu'Anthropic promet une réduction de 90 %.

Enfin, OpenAI propose une fonctionnalité de distillation de modèles permettant aux développeurs d'utiliser des modèles d'IA plus grands, tels que o1-preview et GPT-4o, pour affiner des modèles plus petits tels que GPT-4o mini. L’exécution de modèles plus petits permet généralement de réaliser des économies par rapport à l’exécution de modèles plus grands, mais cette fonctionnalité devrait permettre aux développeurs d’améliorer les performances de ces petits modèles d’IA. Dans le cadre de la distillation du modèle, OpenAI lance un outil d'évaluation bêta afin que les développeurs puissent mesurer les performances de leur réglage au sein de l'API d'OpenAI.

Le DevDay pourrait faire de plus grandes vagues pour ce qu'il n'a pas annoncé – par exemple, aucune nouvelle sur le GPT Store n'a été annoncée lors du DevDay de l'année dernière. Aux dernières nouvelles, OpenAI a testé un programme de partage des revenus avec certains des créateurs de GPT les plus populaires, mais la société n'a pas annoncé grand chose depuis.

En outre, OpenAI indique qu'il ne publiera aucun nouveau modèle d'IA lors du DevDay cette année. Les développeurs qui attendent OpenAI o1 (pas la version préliminaire ou mini) ou le modèle de génération vidéo de la startup, Sora, devront attendre encore un peu.

rewrite this content and keep HTML tags

La semaine a été tumultueuse pour OpenAI, pleine de départs de dirigeants et de développements majeurs en matière de collecte de fonds, mais la startup est de retour, essayant de convaincre les développeurs de créer des outils avec ses modèles d'IA lors de son DevDay 2024. La société a annoncé mardi plusieurs nouveaux outils, notamment une version bêta publique de son « API en temps réel », permettant de créer des applications avec des réponses vocales générées par l'IA à faible latence. Ce n'est pas tout à fait le mode vocal avancé de ChatGPT, mais c'est proche.

Lors d'un point de presse avec les journalistes avant l'événement, Kevin Weil, directeur des produits d'OpenAI, a déclaré que les récents départs de la directrice de la technologie Mira Murati et du directeur de la recherche Bob McGrew n'affecteraient pas les progrès de l'entreprise.

« Je commencerai par dire que Bob et Mira ont été des leaders formidables. J'ai beaucoup appris d'eux, et ils jouent un rôle majeur dans notre réussite actuelle », a déclaré Weil. “Et aussi, nous n'allons pas ralentir.”

Alors qu'OpenAI subit une nouvelle refonte de la C-suite – un rappel des troubles qui ont suivi le DevDay de l'année dernière – la société tente de convaincre les développeurs qu'elle offre toujours la meilleure plate-forme sur laquelle créer des applications d'IA. Les dirigeants affirment que la startup compte plus de 3 millions de développeurs qui construisent avec ses modèles d'IA, mais OpenAI opère dans un espace de plus en plus compétitif.

OpenAI a indiqué qu'elle avait réduit de 99 % les coûts d'accès des développeurs à son API au cours des deux dernières années, bien qu'elle y ait probablement été contrainte par des concurrents tels que Meta et Google, qui sous-cotaient continuellement leurs prix.

L'une des nouvelles fonctionnalités d'OpenAI, baptisée Realtime API, donnera aux développeurs la possibilité de créer des expériences de parole en temps quasi réel dans leurs applications, avec le choix d'utiliser six voix fournies par OpenAI. Ces voix sont distinctes de celles proposées pour ChatGPT, et les développeurs ne peuvent pas utiliser de voix tierces, afin d'éviter les problèmes de droits d'auteur. (La voix basée de manière ambiguë sur celle de Scarlett Johansson n'est disponible nulle part.)

Au cours du briefing, Romain Huet, responsable de l'expérience développeur d'OpenAI, a partagé une démo d'une application de planification de voyage construite avec l'API Realtime. L'application permettait aux utilisateurs de parler verbalement avec un assistant IA d'un prochain voyage à Londres et d'obtenir des réponses à faible latence. L'API Realtime a également accès à un certain nombre d'outils, de sorte que l'application a pu annoter une carte avec les emplacements des restaurants au fur et à mesure qu'elle répondait.

À un autre moment, Huet a montré comment l'API Realtime pouvait parler au téléphone avec un humain pour se renseigner sur la commande de nourriture pour un événement. Contrairement au tristement célèbre Duo de Google, l'API d'OpenAI ne peut pas appeler directement les restaurants ou les magasins ; cependant, il peut s'intégrer à des API appelantes comme Twilio pour ce faire. Notamment, OpenAI est pas ajouter des informations afin que ses modèles d'IA s'identifient automatiquement lors d'appels comme celui-ci, malgré le fait que ces voix générées par l'IA semblent assez réalistes. Pour l'instant, il semble qu'il incombe aux développeurs d'ajouter cette divulgation, ce qui pourrait être exigé par une nouvelle loi californienne.

Dans le cadre de ses annonces DevDay, OpenAI a également introduit le réglage fin de la vision dans son API, qui permettra aux développeurs d'utiliser des images, ainsi que du texte, pour affiner leurs applications de GPT-4o. Cela devrait, en théorie, aider les développeurs à améliorer les performances de GPT-4o pour les tâches impliquant une compréhension visuelle. Le responsable de l'API produit d'OpenAI, Olivier Godement, a déclaré à Testeur Joe que les développeurs ne pourront pas télécharger d'images protégées par le droit d'auteur (comme une photo de Donald Duck), des images illustrant la violence ou d'autres images qui violent les politiques de sécurité d'OpenAI.

OpenAI s'efforce d'égaler ce que proposent déjà ses concurrents dans le domaine des licences de modèles d'IA. Sa fonctionnalité de mise en cache rapide est similaire à la fonctionnalité Anthropic lancée il y a plusieurs mois, permettant aux développeurs de mettre en cache le contexte fréquemment utilisé entre les appels d'API, réduisant ainsi les coûts et améliorant la latence. OpenAI affirme que les développeurs peuvent économiser 50 % en utilisant cette fonctionnalité, tandis qu'Anthropic promet une réduction de 90 %.

Enfin, OpenAI propose une fonctionnalité de distillation de modèles permettant aux développeurs d'utiliser des modèles d'IA plus grands, tels que o1-preview et GPT-4o, pour affiner des modèles plus petits tels que GPT-4o mini. L’exécution de modèles plus petits permet généralement de réaliser des économies par rapport à l’exécution de modèles plus grands, mais cette fonctionnalité devrait permettre aux développeurs d’améliorer les performances de ces petits modèles d’IA. Dans le cadre de la distillation du modèle, OpenAI lance un outil d'évaluation bêta afin que les développeurs puissent mesurer les performances de leur réglage au sein de l'API d'OpenAI.

Le DevDay pourrait faire de plus grandes vagues pour ce qu'il n'a pas annoncé – par exemple, aucune nouvelle sur le GPT Store n'a été annoncée lors du DevDay de l'année dernière. Aux dernières nouvelles, OpenAI a testé un programme de partage des revenus avec certains des créateurs de GPT les plus populaires, mais la société n'a pas annoncé grand chose depuis.

En outre, OpenAI indique qu'il ne publiera aucun nouveau modèle d'IA lors du DevDay cette année. Les développeurs qui attendent OpenAI o1 (pas la version préliminaire ou mini) ou le modèle de génération vidéo de la startup, Sora, devront attendre encore un peu.

Laisser un commentaire