Apple a semblé lent à prendre le train de l'IA générative, mais de nouvelles recherches liées à la compréhension contextuelle pourraient rendre Siri meilleur que ChatGPT.
Le géant de la technologie est resté visiblement silencieux lors de la montée fulgurante de ChatGPT et du déploiement ultérieur d'outils et de fonctionnalités d'IA générative de sociétés comme Google, Microsoft et Meta. Mais les chercheurs d'Apple ont un nouveau modèle qui pourrait donner à Siri la mise à niveau générative de l'IA que les fans d'Apple espéraient.
Apple et Google seraient en discussion. Les Gémeaux pourraient-ils arriver sur iPhone ?
“Le discours humain contient généralement des références ambiguës telles que” ils “ou” cela “, dont la signification est évidente (pour les autres humains) étant donné le contexte”, ont déclaré les chercheurs. L'article propose un modèle appelé ReALM (Reference Resolution As Language Modeling) qui aborde le problème des grands modèles de langage (LLM) qui ne sont pas toujours capables de comprendre le contexte lorsqu'il s'agit de références à l'écran, conversationnelles et en arrière-plan (par exemple, applications ou fonctionnalités exécutées en arrière-plan) dans le but de parvenir à une « véritable expérience mains libres dans les assistants vocaux ».
Bien que ChatGPT soit assez bon et comprenne certains types de contexte, les chercheurs ont déclaré que ReALM surpasse GPT-3.5 et GPT-4 (qui alimentent les versions gratuites et payantes de ChatGPT) sur tous ses tests de contexte. Voici ce que cela pourrait signifier pour Siri.
1. Indices contextuels à l'écran
Les chercheurs d'Apple ont formé ReALM en utilisant des données « à l'écran » provenant de pages Web, y compris des informations de contact, permettant au modèle de comprendre le texte des captures d'écran (par exemple, les adresses et les détails du compte bancaire). Bien que GPT-4 puisse également comprendre les images, il n'a pas été formé sur les captures d'écran, ce qui, selon le document, permet à ReALM de mieux comprendre les informations à l'écran pour lesquelles les utilisateurs d'Apple demanderaient de l'aide à Siri.
2. Compréhension conversationnelle et contextuelle
Les références conversationnelles signifient quelque chose qui est pertinent pour la conversation, mais peut-être pas explicitement mentionné dans l'invite. En entraînant ReALM sur des données telles que des listes d'entreprises, le modèle peut comprendre des invites telles que « appeler celle du bas » en référence à une liste de pharmacies à proximité affichées à l'écran, sans avoir besoin de fournir des instructions plus spécifiques.
ReALM est capable de comprendre les « entités d'arrière-plan », c'est-à-dire quelque chose qui s'exécute en arrière-plan d'un appareil « qui ne fait pas nécessairement partie directement de ce que l'utilisateur voit sur son écran ou de son interaction avec l'agent virtuel », comme la lecture de musique. ou une alarme qui se déclenche.
3. Entièrement intégré à l'appareil
Enfin et surtout, ReALM est conçu pour être intégré à l'appareil, ce qui serait un gros problème puisque les LLM nécessitent beaucoup de puissance de calcul et sont donc principalement basés sur le cloud. Au lieu de cela, ReALM est un LLM plus petit, « mais affiné spécifiquement et explicitement pour la tâche de résolution de référence ». Apple a toujours présenté son engagement en faveur de la confidentialité comme un argument de vente pour ses appareils. Par conséquent, une version générative de Siri avec IA fonctionnant entièrement sur l'appareil serait à la fois très conforme à la marque et constituerait une réussite majeure pour les appareils dotés de capacités d'IA.
Comme on pouvait s'y attendre, Apple a été discret sur ses projets en matière d'IA, mais le PDG Tim Cook a déclaré qu'une annonce importante en matière d'IA était attendue plus tard cette année. Tous les regards sont donc tournés vers la Conférence mondiale des développeurs d'Apple (WWDC) le 10 juin.
Les sujets
Intelligence artificielle Apple
rewrite this content and keep HTML tags
Apple a semblé lent à prendre le train de l'IA générative, mais de nouvelles recherches liées à la compréhension contextuelle pourraient rendre Siri meilleur que ChatGPT.
Le géant de la technologie est resté visiblement silencieux lors de la montée fulgurante de ChatGPT et du déploiement ultérieur d'outils et de fonctionnalités d'IA générative de sociétés comme Google, Microsoft et Meta. Mais les chercheurs d'Apple ont un nouveau modèle qui pourrait donner à Siri la mise à niveau générative de l'IA que les fans d'Apple espéraient.
Apple et Google seraient en discussion. Les Gémeaux pourraient-ils arriver sur iPhone ?
“Le discours humain contient généralement des références ambiguës telles que” ils “ou” cela “, dont la signification est évidente (pour les autres humains) étant donné le contexte”, ont déclaré les chercheurs. L'article propose un modèle appelé ReALM (Reference Resolution As Language Modeling) qui aborde le problème des grands modèles de langage (LLM) qui ne sont pas toujours capables de comprendre le contexte lorsqu'il s'agit de références à l'écran, conversationnelles et en arrière-plan (par exemple, applications ou fonctionnalités exécutées en arrière-plan) dans le but de parvenir à une « véritable expérience mains libres dans les assistants vocaux ».
Bien que ChatGPT soit assez bon et comprenne certains types de contexte, les chercheurs ont déclaré que ReALM surpasse GPT-3.5 et GPT-4 (qui alimentent les versions gratuites et payantes de ChatGPT) sur tous ses tests de contexte. Voici ce que cela pourrait signifier pour Siri.
1. Indices contextuels à l'écran
Les chercheurs d'Apple ont formé ReALM en utilisant des données « à l'écran » provenant de pages Web, y compris des informations de contact, permettant au modèle de comprendre le texte des captures d'écran (par exemple, les adresses et les détails du compte bancaire). Bien que GPT-4 puisse également comprendre les images, il n'a pas été formé sur les captures d'écran, ce qui, selon le document, permet à ReALM de mieux comprendre les informations à l'écran pour lesquelles les utilisateurs d'Apple demanderaient de l'aide à Siri.
2. Compréhension conversationnelle et contextuelle
Les références conversationnelles signifient quelque chose qui est pertinent pour la conversation, mais peut-être pas explicitement mentionné dans l'invite. En entraînant ReALM sur des données telles que des listes d'entreprises, le modèle peut comprendre des invites telles que « appeler celle du bas » en référence à une liste de pharmacies à proximité affichées à l'écran, sans avoir besoin de fournir des instructions plus spécifiques.
ReALM est capable de comprendre les « entités d'arrière-plan », c'est-à-dire quelque chose qui s'exécute en arrière-plan d'un appareil « qui ne fait pas nécessairement partie directement de ce que l'utilisateur voit sur son écran ou de son interaction avec l'agent virtuel », comme la lecture de musique. ou une alarme qui se déclenche.
3. Entièrement intégré à l'appareil
Enfin et surtout, ReALM est conçu pour être intégré à l'appareil, ce qui serait un gros problème puisque les LLM nécessitent beaucoup de puissance de calcul et sont donc principalement basés sur le cloud. Au lieu de cela, ReALM est un LLM plus petit, « mais affiné spécifiquement et explicitement pour la tâche de résolution de référence ». Apple a toujours présenté son engagement en faveur de la confidentialité comme un argument de vente pour ses appareils. Par conséquent, une version générative de Siri avec IA fonctionnant entièrement sur l'appareil serait à la fois très conforme à la marque et constituerait une réussite majeure pour les appareils dotés de capacités d'IA.
Comme on pouvait s'y attendre, Apple a été discret sur ses projets en matière d'IA, mais le PDG Tim Cook a déclaré qu'une annonce importante en matière d'IA était attendue plus tard cette année. Tous les regards sont donc tournés vers la Conférence mondiale des développeurs d'Apple (WWDC) le 10 juin.
Les sujets
Intelligence artificielle Apple