Le dernier modèle d’Anthropic peut prendre “The Great Gatsby” en entrée

Historiquement et même aujourd’hui, une mauvaise mémoire a été un obstacle à l’utilité de l’IA génératrice de texte. Comme le dit avec justesse un article récent de The Atlantic, même une IA textuelle générative sophistiquée comme ChatGPT a la mémoire d’un poisson rouge. Chaque fois que le modèle génère une réponse, il ne prend en compte qu’une quantité très limitée de texte, ce qui l’empêche, par exemple, de résumer un livre ou de passer en revue un projet de codage majeur.

Mais Anthropic essaie de changer cela.

Aujourd’hui, la startup de recherche sur l’IA a annoncé qu’elle avait élargi la fenêtre contextuelle de Claude – son modèle phare d’IA générant du texte, toujours en avant-première – de 9 000 jetons à 100 000 jetons. La fenêtre contextuelle fait référence au texte que le modèle considère avant de générer du texte supplémentaire, tandis que les jetons représentent le texte brut (par exemple, le mot “fantastique” serait divisé en jetons “fan”, “tas” et “tic”).

Alors quelle est la signification, exactement ? Eh bien, comme mentionné précédemment, les modèles avec de petites fenêtres contextuelles ont tendance à “oublier” le contenu des conversations, même très récentes, ce qui les conduit à s’écarter du sujet. Après quelques milliers de mots environ, ils oublient également leurs instructions initiales, extrapolant plutôt leur comportement à partir des dernières informations dans leur fenêtre contextuelle plutôt qu’à partir de la demande d’origine.

Compte tenu des avantages des grandes fenêtres contextuelles, il n’est pas surprenant que la recherche de moyens de les étendre soit devenue un objectif majeur des laboratoires d’IA comme OpenAI, qui a consacré toute une équipe à la question. Le GPT-4 d’OpenAI détenait la couronne précédente en termes de taille de fenêtre contextuelle, pesant 32 000 jetons sur le haut de gamme – mais l’API Claude améliorée dépasse cela.

Avec une plus grande “mémoire”, Claude devrait être capable de converser de manière relativement cohérente pendant des heures – plusieurs jours, même – au lieu de quelques minutes. Et peut-être plus important encore, il devrait être moins susceptible de dérailler.

Dans un article de blog, Anthropic vante les autres avantages de la fenêtre contextuelle accrue de Claude, notamment la capacité du modèle à digérer et à analyser des centaines de pages de documents. Au-delà de la lecture de longs textes, le Claude mis à niveau peut aider à récupérer des informations à partir de plusieurs documents ou même d’un livre, explique Anthropic, en répondant à des questions qui nécessitent une “synthèse des connaissances” dans de nombreuses parties du texte.

Anthropic liste quelques cas d’utilisation possibles :

  • Assimiler, résumer et expliquer des documents tels que des états financiers ou des documents de recherche
  • Analyser les risques et les opportunités d’une entreprise sur la base de ses rapports annuels
  • Évaluer le pour et le contre d’un projet de loi
  • Identifier les risques, les thèmes et les différentes formes d’argumentation dans les documents juridiques.
  • Lire des centaines de pages de documentation pour les développeurs et trouver des réponses aux questions techniques
  • Prototypage rapide en déposant une base de code entière dans le contexte et en la développant ou en la modifiant intelligemment

“La personne moyenne peut lire 100 000 jetons de texte en environ cinq heures, puis elle peut avoir besoin de beaucoup plus de temps pour digérer, mémoriser et analyser ces informations”, poursuit Anthropic. « Claude peut maintenant le faire en moins d’une minute. Par exemple, nous avons chargé l’intégralité du texte de The Great Gatsby dans Claude… et modifié une ligne pour dire que M. Carraway était « un ingénieur logiciel qui travaille sur les outils d’apprentissage automatique chez Anthropic ». Lorsque nous avons demandé au modèle de repérer ce qui était différent, il a répondu avec la bonne réponse en 22 secondes.

Désormais, des fenêtres de contexte plus longues ne résolvent pas les autres problèmes liés à la mémoire autour des grands modèles de langage. Claude, comme la plupart des modèles de sa catégorie, ne peut retenir les informations d’une séance à l’autre. Et contrairement au cerveau humain, il traite chaque élément d’information comme étant d’égale importance, ce qui en fait un narrateur pas particulièrement fiable. Certains experts estiment que la résolution de ces problèmes nécessitera des architectures de modèles entièrement nouvelles.

Pour l’instant, cependant, Anthropic semble être à l’avant-garde.

rewrite this content and keep HTML tags

Historiquement et même aujourd’hui, une mauvaise mémoire a été un obstacle à l’utilité de l’IA génératrice de texte. Comme le dit avec justesse un article récent de The Atlantic, même une IA textuelle générative sophistiquée comme ChatGPT a la mémoire d’un poisson rouge. Chaque fois que le modèle génère une réponse, il ne prend en compte qu’une quantité très limitée de texte, ce qui l’empêche, par exemple, de résumer un livre ou de passer en revue un projet de codage majeur.

Mais Anthropic essaie de changer cela.

Aujourd’hui, la startup de recherche sur l’IA a annoncé qu’elle avait élargi la fenêtre contextuelle de Claude – son modèle phare d’IA générant du texte, toujours en avant-première – de 9 000 jetons à 100 000 jetons. La fenêtre contextuelle fait référence au texte que le modèle considère avant de générer du texte supplémentaire, tandis que les jetons représentent le texte brut (par exemple, le mot “fantastique” serait divisé en jetons “fan”, “tas” et “tic”).

Alors quelle est la signification, exactement ? Eh bien, comme mentionné précédemment, les modèles avec de petites fenêtres contextuelles ont tendance à “oublier” le contenu des conversations, même très récentes, ce qui les conduit à s’écarter du sujet. Après quelques milliers de mots environ, ils oublient également leurs instructions initiales, extrapolant plutôt leur comportement à partir des dernières informations dans leur fenêtre contextuelle plutôt qu’à partir de la demande d’origine.

Compte tenu des avantages des grandes fenêtres contextuelles, il n’est pas surprenant que la recherche de moyens de les étendre soit devenue un objectif majeur des laboratoires d’IA comme OpenAI, qui a consacré toute une équipe à la question. Le GPT-4 d’OpenAI détenait la couronne précédente en termes de taille de fenêtre contextuelle, pesant 32 000 jetons sur le haut de gamme – mais l’API Claude améliorée dépasse cela.

Avec une plus grande “mémoire”, Claude devrait être capable de converser de manière relativement cohérente pendant des heures – plusieurs jours, même – au lieu de quelques minutes. Et peut-être plus important encore, il devrait être moins susceptible de dérailler.

Dans un article de blog, Anthropic vante les autres avantages de la fenêtre contextuelle accrue de Claude, notamment la capacité du modèle à digérer et à analyser des centaines de pages de documents. Au-delà de la lecture de longs textes, le Claude mis à niveau peut aider à récupérer des informations à partir de plusieurs documents ou même d’un livre, explique Anthropic, en répondant à des questions qui nécessitent une “synthèse des connaissances” dans de nombreuses parties du texte.

Anthropic liste quelques cas d’utilisation possibles :

  • Assimiler, résumer et expliquer des documents tels que des états financiers ou des documents de recherche
  • Analyser les risques et les opportunités d’une entreprise sur la base de ses rapports annuels
  • Évaluer le pour et le contre d’un projet de loi
  • Identifier les risques, les thèmes et les différentes formes d’argumentation dans les documents juridiques.
  • Lire des centaines de pages de documentation pour les développeurs et trouver des réponses aux questions techniques
  • Prototypage rapide en déposant une base de code entière dans le contexte et en la développant ou en la modifiant intelligemment

“La personne moyenne peut lire 100 000 jetons de texte en environ cinq heures, puis elle peut avoir besoin de beaucoup plus de temps pour digérer, mémoriser et analyser ces informations”, poursuit Anthropic. « Claude peut maintenant le faire en moins d’une minute. Par exemple, nous avons chargé l’intégralité du texte de The Great Gatsby dans Claude… et modifié une ligne pour dire que M. Carraway était « un ingénieur logiciel qui travaille sur les outils d’apprentissage automatique chez Anthropic ». Lorsque nous avons demandé au modèle de repérer ce qui était différent, il a répondu avec la bonne réponse en 22 secondes.

Désormais, des fenêtres de contexte plus longues ne résolvent pas les autres problèmes liés à la mémoire autour des grands modèles de langage. Claude, comme la plupart des modèles de sa catégorie, ne peut retenir les informations d’une séance à l’autre. Et contrairement au cerveau humain, il traite chaque élément d’information comme étant d’égale importance, ce qui en fait un narrateur pas particulièrement fiable. Certains experts estiment que la résolution de ces problèmes nécessitera des architectures de modèles entièrement nouvelles.

Pour l’instant, cependant, Anthropic semble être à l’avant-garde.

Laisser un commentaire