Voici la preuve que vous pouvez entraîner un modèle d'IA sans abuser du contenu protégé par le droit d'auteur

En 2023, OpenAI a déclaré au parlement britannique qu’il était « impossible » de former des modèles d’IA de premier plan sans utiliser de matériel protégé par le droit d’auteur. C'est une position populaire dans le monde de l'IA, où OpenAI et d'autres acteurs de premier plan ont utilisé du matériel trouvé en ligne pour former les modèles qui alimentent les chatbots et les générateurs d'images, déclenchant une vague de poursuites pour violation du droit d'auteur.

Deux annonces publiées mercredi prouvent que de grands modèles de langage peuvent en fait être formés sans l'utilisation sans autorisation de matériels protégés par le droit d'auteur.

Un groupe de chercheurs soutenu par le gouvernement français a publié ce qui est considéré comme le plus grand ensemble de données sur la formation à l'IA composé entièrement de texte appartenant au domaine public. Et l'organisation à but non lucratif Fairly Trained a annoncé avoir attribué sa première certification pour un grand modèle de langage construit sans violation du droit d'auteur, démontrant qu'une technologie comme celle derrière ChatGPT peut être construite d'une manière différente de la norme controversée de l'industrie de l'IA.

« Il n'y a aucune raison fondamentale pour laquelle quelqu'un ne pourrait pas former équitablement un LLM », déclare Ed Newton-Rex, PDG de Fairly Trained. Il a fondé l'organisation à but non lucratif en janvier 2024 après avoir quitté son poste de direction au sein de la startup de génération d'images Stability AI parce qu'il n'était pas d'accord avec sa politique de suppression de contenu sans autorisation.

Fairly Trained propose une certification aux entreprises désireuses de prouver qu'elles ont formé leurs modèles d'IA sur des données qu'elles possèdent, qu'elles ont sous licence ou qui appartiennent au domaine public. Lors de son lancement, l'organisation à but non lucratif a souligné qu'elle n'avait pas encore identifié de modèle linguistique à grande échelle répondant à ces exigences.

Aujourd'hui, Fairly Trained a annoncé avoir certifié son premier grand modèle linguistique. Il s'appelle KL3M et a été développé par 273 Ventures, une startup de conseil en technologie juridique basée à Chicago, à l'aide d'un ensemble de données de formation organisées de documents juridiques, financiers et réglementaires.

La cofondatrice de l'entreprise, Jillian Bommarito, affirme que la décision de former KL3M de cette manière découle des clients « averses au risque » de l'entreprise, comme les cabinets d'avocats. « Ils s'inquiètent de la provenance et doivent savoir que la production n'est pas basée sur des données erronées », dit-elle. “Nous ne comptons pas sur un usage équitable.” Les clients étaient intéressés par l'utilisation de l'IA générative pour des tâches telles que la synthèse de documents juridiques et la rédaction de contrats, mais ne voulaient pas se laisser entraîner dans des poursuites judiciaires concernant la propriété intellectuelle comme l'ont été OpenAI, Stability AI et d'autres.

Bommarito dit que 273 Ventures n'avait jamais travaillé sur un grand modèle de langage auparavant, mais a décidé d'en former un à titre expérimental. «Notre test pour voir si c'était même possible», dit-elle. La société a créé son propre ensemble de données de formation, le Kelvin Legal DataPack, qui comprend des milliers de documents juridiques examinés pour se conformer à la loi sur le droit d'auteur.

Bien que l'ensemble de données soit minuscule (environ 350 milliards de jetons, ou unités de données) par rapport à ceux compilés par OpenAI et d'autres qui ont gratté Internet en masse, Bommarito affirme que le modèle KL3M a fonctionné bien mieux que prévu, ce qu'elle attribue au soin avec lequel le modèle KL3M a été utilisé. les données avaient été vérifiées au préalable. « Disposer de données propres et de haute qualité peut signifier que vous n'avez pas besoin de rendre le modèle aussi volumineux », dit-elle. La conservation d'un ensemble de données peut aider à créer un modèle d'IA fini spécialisé pour la tâche pour laquelle il a été conçu. 273 Ventures propose désormais des places sur une liste d'attente aux clients qui souhaitent acheter l'accès à ces données.

Feuille propre

Les entreprises cherchant à imiter KL3M pourraient bénéficier à l’avenir d’une aide supplémentaire sous la forme d’ensembles de données libres de toute infraction, disponibles gratuitement. Mercredi, les chercheurs ont publié ce qu'ils prétendent être le plus grand ensemble de données d'IA disponible pour des modèles de langage composé uniquement de contenu du domaine public. Common Corpus, comme on l'appelle, est une collection de texte à peu près de la même taille que les données utilisées pour entraîner le modèle de génération de texte GPT-3 d'OpenAI et a été publié sur la plateforme d'IA open source Hugging Face.

L'ensemble de données a été construit à partir de sources telles que des journaux du domaine public numérisés par la Bibliothèque du Congrès des États-Unis et la Bibliothèque nationale de France. Pierre-Carl Langlais, coordinateur du projet Common Corpus, le qualifie de « corpus suffisamment grand pour former un LLM de pointe ». Dans le jargon de la grande IA, l'ensemble de données contient 500 millions de jetons, le modèle le plus performant d'OpenAI étant largement considéré comme ayant été formé sur plusieurs milliards.

rewrite this content and keep HTML tags

En 2023, OpenAI a déclaré au parlement britannique qu’il était « impossible » de former des modèles d’IA de premier plan sans utiliser de matériel protégé par le droit d’auteur. C'est une position populaire dans le monde de l'IA, où OpenAI et d'autres acteurs de premier plan ont utilisé du matériel trouvé en ligne pour former les modèles qui alimentent les chatbots et les générateurs d'images, déclenchant une vague de poursuites pour violation du droit d'auteur.

Deux annonces publiées mercredi prouvent que de grands modèles de langage peuvent en fait être formés sans l'utilisation sans autorisation de matériels protégés par le droit d'auteur.

Un groupe de chercheurs soutenu par le gouvernement français a publié ce qui est considéré comme le plus grand ensemble de données sur la formation à l'IA composé entièrement de texte appartenant au domaine public. Et l'organisation à but non lucratif Fairly Trained a annoncé avoir attribué sa première certification pour un grand modèle de langage construit sans violation du droit d'auteur, démontrant qu'une technologie comme celle derrière ChatGPT peut être construite d'une manière différente de la norme controversée de l'industrie de l'IA.

« Il n'y a aucune raison fondamentale pour laquelle quelqu'un ne pourrait pas former équitablement un LLM », déclare Ed Newton-Rex, PDG de Fairly Trained. Il a fondé l'organisation à but non lucratif en janvier 2024 après avoir quitté son poste de direction au sein de la startup de génération d'images Stability AI parce qu'il n'était pas d'accord avec sa politique de suppression de contenu sans autorisation.

Fairly Trained propose une certification aux entreprises désireuses de prouver qu'elles ont formé leurs modèles d'IA sur des données qu'elles possèdent, qu'elles ont sous licence ou qui appartiennent au domaine public. Lors de son lancement, l'organisation à but non lucratif a souligné qu'elle n'avait pas encore identifié de modèle linguistique à grande échelle répondant à ces exigences.

Aujourd'hui, Fairly Trained a annoncé avoir certifié son premier grand modèle linguistique. Il s'appelle KL3M et a été développé par 273 Ventures, une startup de conseil en technologie juridique basée à Chicago, à l'aide d'un ensemble de données de formation organisées de documents juridiques, financiers et réglementaires.

La cofondatrice de l'entreprise, Jillian Bommarito, affirme que la décision de former KL3M de cette manière découle des clients « averses au risque » de l'entreprise, comme les cabinets d'avocats. « Ils s'inquiètent de la provenance et doivent savoir que la production n'est pas basée sur des données erronées », dit-elle. “Nous ne comptons pas sur un usage équitable.” Les clients étaient intéressés par l'utilisation de l'IA générative pour des tâches telles que la synthèse de documents juridiques et la rédaction de contrats, mais ne voulaient pas se laisser entraîner dans des poursuites judiciaires concernant la propriété intellectuelle comme l'ont été OpenAI, Stability AI et d'autres.

Bommarito dit que 273 Ventures n'avait jamais travaillé sur un grand modèle de langage auparavant, mais a décidé d'en former un à titre expérimental. «Notre test pour voir si c'était même possible», dit-elle. La société a créé son propre ensemble de données de formation, le Kelvin Legal DataPack, qui comprend des milliers de documents juridiques examinés pour se conformer à la loi sur le droit d'auteur.

Bien que l'ensemble de données soit minuscule (environ 350 milliards de jetons, ou unités de données) par rapport à ceux compilés par OpenAI et d'autres qui ont gratté Internet en masse, Bommarito affirme que le modèle KL3M a fonctionné bien mieux que prévu, ce qu'elle attribue au soin avec lequel le modèle KL3M a été utilisé. les données avaient été vérifiées au préalable. « Disposer de données propres et de haute qualité peut signifier que vous n'avez pas besoin de rendre le modèle aussi volumineux », dit-elle. La conservation d'un ensemble de données peut aider à créer un modèle d'IA fini spécialisé pour la tâche pour laquelle il a été conçu. 273 Ventures propose désormais des places sur une liste d'attente aux clients qui souhaitent acheter l'accès à ces données.

Feuille propre

Les entreprises cherchant à imiter KL3M pourraient bénéficier à l’avenir d’une aide supplémentaire sous la forme d’ensembles de données libres de toute infraction, disponibles gratuitement. Mercredi, les chercheurs ont publié ce qu'ils prétendent être le plus grand ensemble de données d'IA disponible pour des modèles de langage composé uniquement de contenu du domaine public. Common Corpus, comme on l'appelle, est une collection de texte à peu près de la même taille que les données utilisées pour entraîner le modèle de génération de texte GPT-3 d'OpenAI et a été publié sur la plateforme d'IA open source Hugging Face.

L'ensemble de données a été construit à partir de sources telles que des journaux du domaine public numérisés par la Bibliothèque du Congrès des États-Unis et la Bibliothèque nationale de France. Pierre-Carl Langlais, coordinateur du projet Common Corpus, le qualifie de « corpus suffisamment grand pour former un LLM de pointe ». Dans le jargon de la grande IA, l'ensemble de données contient 500 millions de jetons, le modèle le plus performant d'OpenAI étant largement considéré comme ayant été formé sur plusieurs milliards.

Laisser un commentaire