LlamaIndex ajoute des données privées à de grands modèles de langage

L’automne dernier, après avoir joué avec le modèle d’IA générant du texte GPT-3 d’OpenAI – le prédécesseur du GPT-4 – l’ancien chercheur scientifique d’Uber, Jerry Liu, a découvert ce qu’il décrit comme des «limitations» concernant la capacité du modèle à travailler avec des données privées (par exemple, dossiers personnels). Pour résoudre ce problème, il a lancé un projet open source, LlamaIndex, conçu pour déverrouiller les capacités et les cas d’utilisation de grands modèles de langage (LLM) comme GPT-3 et GPT-4.

“Les LLM offrent des capacités incroyables d’extraction de connaissances et de raisonnement – ils peuvent effectuer des réponses aux questions, des résumés et des extractions d’informations et même des prises de décision séquentielles avec un environnement externe”, a déclaré Liu à TechCrunch dans une interview par e-mail. “Mais les LLM ont des limites.”

Alors que le projet gagnait en popularité (à hauteur de 200 000 téléchargements mensuels), Liu s’est associé à Simon Suo, l’un de ses anciens collègues d’Uber, pour transformer LlamaIndex en une entreprise à part entière. Aujourd’hui, LlamaIndex (la société) propose un cadre pour aider les développeurs à tirer parti des capacités des LLM en plus de leurs données personnelles ou organisationnelles.

“LlamaIndex [helps] les développeurs gèrent leurs données pour les applications LLM », a déclaré Liu. “Notre boîte à outils contient le plus de profondeur dans cet aspect, et nous facilitons l’intégration avec d’autres outils que le développeur utilise.”

LlamaIndex

Crédits image : LlamaIndex

Le framework LlamaIndex permet aux développeurs de connecter des données à partir de fichiers tels que des PDF, des PowerPoint, des applications telles que Notion et Slack et des bases de données telles que Postgres et MongoDB à des LLM. Le cadre comprend des connecteurs pour ingérer des sources de données et des formats de données, ainsi que des moyens de structurer les données afin qu’elles puissent être facilement utilisées avec les LLM.

De plus, LlamaIndex propose une interface de récupération de données et de requête qui permet aux développeurs d’alimenter n’importe quelle invite d’entrée LLM pour récupérer – comme le décrit Liu – une sortie “contextuelle et enrichie en connaissances”.

“Il existe d’autres cadres d’application LLM qui offrent des blocs de construction de base pour les applications et les agents LLM”, a déclaré Liu. “Ce qui est spécifique à LlamaIndex, c’est que nous nous concentrons sur la connexion de vos sources de données avec les LLM, et nous disposons d’outils complets autour de l’ingestion de données, de la gestion et de l’indexation des données et de la récupération des données en ce qui concerne les applications LLM.”

La perspective d’augmenter les LLM de cette manière a séduit les investisseurs, qui ont promis 8,5 millions de dollars à LlamaIndex lors d’un cycle de financement de démarrage récemment clôturé. Greylock a dirigé avec la participation d’investisseurs providentiels, dont Jack Altman, Lenny Rachitsky et Charles Xie.

Alors, à quoi LlamaIndex dépensera-t-il l’argent ? Liu dit qu’il sera utilisé pour construire une “solution d’entreprise” au-dessus du projet open source LlamaIndex, qui devrait être lancé plus tard cette année. Une capacité permettra aux clients d’utiliser des connecteurs de données « de niveau protection » pour analyser et transporter de gros volumes de données, tandis qu’une autre capacité connexe leur permettra d’indexer des données « spécifiques à un domaine ».

“LlamaIndex n’est pas lié à une technologie spécifique, de sorte que nous pouvons continuer à être utilisés avec les LLM à mesure que la technologie évolue”, a déclaré Liu. “L’industrie de l’IA évolue si rapidement que toutes les piles initiales qui émergent changeront probablement au cours des prochains mois.”

rewrite this content and keep HTML tags

L’automne dernier, après avoir joué avec le modèle d’IA générant du texte GPT-3 d’OpenAI – le prédécesseur du GPT-4 – l’ancien chercheur scientifique d’Uber, Jerry Liu, a découvert ce qu’il décrit comme des «limitations» concernant la capacité du modèle à travailler avec des données privées (par exemple, dossiers personnels). Pour résoudre ce problème, il a lancé un projet open source, LlamaIndex, conçu pour déverrouiller les capacités et les cas d’utilisation de grands modèles de langage (LLM) comme GPT-3 et GPT-4.

“Les LLM offrent des capacités incroyables d’extraction de connaissances et de raisonnement – ils peuvent effectuer des réponses aux questions, des résumés et des extractions d’informations et même des prises de décision séquentielles avec un environnement externe”, a déclaré Liu à TechCrunch dans une interview par e-mail. “Mais les LLM ont des limites.”

Alors que le projet gagnait en popularité (à hauteur de 200 000 téléchargements mensuels), Liu s’est associé à Simon Suo, l’un de ses anciens collègues d’Uber, pour transformer LlamaIndex en une entreprise à part entière. Aujourd’hui, LlamaIndex (la société) propose un cadre pour aider les développeurs à tirer parti des capacités des LLM en plus de leurs données personnelles ou organisationnelles.

“LlamaIndex [helps] les développeurs gèrent leurs données pour les applications LLM », a déclaré Liu. “Notre boîte à outils contient le plus de profondeur dans cet aspect, et nous facilitons l’intégration avec d’autres outils que le développeur utilise.”

LlamaIndex

Crédits image : LlamaIndex

Le framework LlamaIndex permet aux développeurs de connecter des données à partir de fichiers tels que des PDF, des PowerPoint, des applications telles que Notion et Slack et des bases de données telles que Postgres et MongoDB à des LLM. Le cadre comprend des connecteurs pour ingérer des sources de données et des formats de données, ainsi que des moyens de structurer les données afin qu’elles puissent être facilement utilisées avec les LLM.

De plus, LlamaIndex propose une interface de récupération de données et de requête qui permet aux développeurs d’alimenter n’importe quelle invite d’entrée LLM pour récupérer – comme le décrit Liu – une sortie “contextuelle et enrichie en connaissances”.

“Il existe d’autres cadres d’application LLM qui offrent des blocs de construction de base pour les applications et les agents LLM”, a déclaré Liu. “Ce qui est spécifique à LlamaIndex, c’est que nous nous concentrons sur la connexion de vos sources de données avec les LLM, et nous disposons d’outils complets autour de l’ingestion de données, de la gestion et de l’indexation des données et de la récupération des données en ce qui concerne les applications LLM.”

La perspective d’augmenter les LLM de cette manière a séduit les investisseurs, qui ont promis 8,5 millions de dollars à LlamaIndex lors d’un cycle de financement de démarrage récemment clôturé. Greylock a dirigé avec la participation d’investisseurs providentiels, dont Jack Altman, Lenny Rachitsky et Charles Xie.

Alors, à quoi LlamaIndex dépensera-t-il l’argent ? Liu dit qu’il sera utilisé pour construire une “solution d’entreprise” au-dessus du projet open source LlamaIndex, qui devrait être lancé plus tard cette année. Une capacité permettra aux clients d’utiliser des connecteurs de données « de niveau protection » pour analyser et transporter de gros volumes de données, tandis qu’une autre capacité connexe leur permettra d’indexer des données « spécifiques à un domaine ».

“LlamaIndex n’est pas lié à une technologie spécifique, de sorte que nous pouvons continuer à être utilisés avec les LLM à mesure que la technologie évolue”, a déclaré Liu. “L’industrie de l’IA évolue si rapidement que toutes les piles initiales qui émergent changeront probablement au cours des prochains mois.”

Laisser un commentaire