Le modèle d’IA Galactica a été formé sur des connaissances scientifiques, et il a craché des absurdités alarmantes et plausibles

Le modèle d'IA Galactica a été formé sur des connaissances scientifiques, mais il a craché des bêtises d'une plausibilité alarmante

Galactica génère facilement un contenu toxique et absurde habillé dans le langage mesuré et faisant autorité de la science. Crédit : Tristan Greene / Galactica

Plus tôt ce mois-ci, Meta a annoncé un nouveau logiciel d’IA appelé Galactica : “un grand modèle de langage qui peut stocker, combiner et raisonner sur les connaissances scientifiques”.

Lancé avec une démo publique en ligne, Galactica n’a duré que trois jours avant de suivre le chemin d’autres snafus d’IA comme le tristement célèbre chatbot raciste de Microsoft.

La démo en ligne a été désactivée (bien que le code du modèle soit toujours disponible pour tout le monde), et le scientifique en chef de l’intelligence artificielle de Meta s’est plaint sur la réponse négative du public.

Alors, de quoi s’agissait Galactica et qu’est-ce qui n’allait pas?

Quelle est la particularité de Galactica ?

Galactica est un modèle de langage, un type d’IA formé pour répondre au langage naturel en jouant à plusieurs reprises à un jeu de devinettes de mots à remplir.

La plupart des modèles de langage modernes apprennent à partir de textes récupérés sur Internet. Galactica a également utilisé le texte d’articles scientifiques téléchargés sur le site Web (affilié à Meta) PapersWithCode. Les concepteurs ont mis en évidence des informations scientifiques spécialisées telles que les citations, les mathématiques, le code, les structures chimiques et les étapes de travail pour résoudre des problèmes scientifiques.

Le document préimprimé associé au projet (qui n’a pas encore fait l’objet d’un examen par les pairs) fait des déclarations impressionnantes. Galactica surpasse apparemment d’autres modèles pour des problèmes tels que la récitation d’équations célèbres (“Q : Quelle est la célèbre formule d’équivalence masse-énergie d’Albert Einstein ? R : E=mc²”) ou la prédiction des produits de réactions chimiques (“Q : Lorsque l’acide sulfurique réagit avec chlorure de sodium, que produit-il ? A : NaHSO₄ + HCl”).

Cependant, une fois que Galactica a été ouvert à l’expérimentation publique, un déluge de critiques a suivi. Non seulement Galactica a reproduit de nombreux problèmes de biais et de toxicité que nous avons vus dans d’autres modèles de langage, mais il s’est également spécialisé dans la production d’absurdités scientifiques faisant autorité.

Générateur de désinformation faisant autorité, mais subtilement faux

Le communiqué de presse de Galactica a promu sa capacité à expliquer les articles scientifiques techniques en utilisant un langage général. Cependant, les utilisateurs ont rapidement remarqué que, même si les explications qu’il génère font autorité, elles sont souvent subtilement incorrectes, biaisées ou tout simplement fausses.

Nous avons également demandé à Galactica d’expliquer les concepts techniques de nos propres domaines de recherche. Nous avons constaté qu’il utiliserait tous les bons mots à la mode, mais se tromperait sur les détails réels, par exemple en mélangeant les détails d’algorithmes liés mais différents.

En pratique, Galactica permettait de générer de la désinformation – et c’est dangereux précisément parce qu’il déploie le ton et la structure d’informations scientifiques faisant autorité. Si un utilisateur doit déjà être un expert en la matière afin de vérifier l’exactitude des “résumés” de Galactica, alors cela n’a aucune utilité en tant qu’outil explicatif.

Au mieux, cela pourrait fournir une saisie semi-automatique sophistiquée aux personnes déjà parfaitement compétentes dans le domaine sur lequel elles écrivent. Au pire, cela risque d’éroder davantage la confiance du public dans la recherche scientifique.

Une galaxie de contrefaçons (scientifiques) profondes

Galactica pourrait permettre aux acteurs malveillants de produire en masse des articles scientifiques faux, frauduleux ou plagiés. Cela ne veut rien dire de l’exacerbation des préoccupations existantes concernant les étudiants utilisant des systèmes d’IA pour le plagiat.

Les faux articles scientifiques ne sont pas nouveaux. Cependant, les pairs évaluateurs des revues et conférences universitaires manquent déjà de temps, ce qui pourrait rendre plus difficile que jamais l’élimination de la fausse science.

Biais sous-jacent et toxicité

D’autres critiques ont rapporté que Galactica, comme d’autres modèles de langage formés sur des données provenant d’Internet, a tendance à cracher discours de haine toxique tout en censurant sans réfléchir les requêtes politiquement infléchies. Cela reflète les biais qui se cachent dans les données de formation du modèle et l’incapacité apparente de Meta à appliquer les contrôles appropriés autour de la recherche responsable sur l’IA.

Les risques associés aux grands modèles de langage sont bien compris. En effet, un article influent soulignant ces risques a incité Google à licencier l’un des auteurs de l’article en 2020, et finalement à dissoudre complètement son équipe d’éthique en IA.

Les systèmes d’apprentissage automatique exacerbent tristement les préjugés sociétaux existants, et Galactica ne fait pas exception. Par exemple, Galactica peut recommander des citations possibles pour des concepts scientifiques en imitant les schémas de citation existants (“Q : Y a-t-il des recherches sur l’effet du changement climatique sur la grande barrière de corail ? R : Essayez l’article “Le réchauffement climatique transforme les assemblages de récifs coralliens” par Hughes, et al. dans Nature 556 (2018)”).

Pour le meilleur ou pour le pire, les citations sont la monnaie de la science – et en reproduisant les tendances de citations existantes dans ses recommandations, Galactica risque de renforcer les schémas existants d’inégalité et de désavantage. (Les développeurs de Galactica reconnaissent ce risque dans leur article.)

Le biais de citation est déjà un problème bien connu dans des domaines académiques allant de l’érudition féministe à la physique. Cependant, des outils comme Galactica pourraient aggraver le problème à moins qu’ils ne soient utilisés avec des garde-corps en place.

Un problème plus subtil est que les articles scientifiques sur lesquels Galactica est formé sont déjà biaisés vers la certitude et les résultats positifs. (Cela conduit à la soi-disant «crise de réplication» et au «p-hacking», où les scientifiques sélectionnent les données et les techniques d’analyse pour que les résultats paraissent significatifs.)

Galactica prend ce biais vers la certitude, le combine avec de mauvaises réponses et fournit des réponses avec un excès de confiance suprême : loin d’être une recette pour la fiabilité dans un service d’information scientifique.

Ces problèmes sont considérablement accrus lorsque Galactica tente de traiter des problèmes sociaux litigieux ou nuisibles.

On y va encore une fois

Les appels aux organisations de recherche en IA pour qu’elles prennent plus au sérieux les dimensions éthiques de leur travail proviennent désormais d’organismes de recherche clés tels que les Académies nationales des sciences, de l’ingénierie et de la médecine. Certaines organisations de recherche sur l’IA, comme OpenAI, sont plus consciencieuses (bien qu’encore imparfaites).

Meta a dissous son équipe d’innovation responsable plus tôt cette année. L’équipe a été chargée de traiter les “dommages potentiels pour la société” causés par les produits de l’entreprise. Ils auraient peut-être aidé l’entreprise à éviter ce faux pas maladroit.

Fourni par La Conversation

Cet article est republié de The Conversation sous une licence Creative Commons. Lire l’article d’origine.La conversation

Citation: Le modèle Galactica AI a été formé sur des connaissances scientifiques, et il a craché des absurdités plausibles et alarmantes (2022, 30 novembre) récupéré le 9 décembre 2022 sur https://techxplore.com/news/2022-11-galactica-ai-scientific-knowledge -spat.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.

Laisser un commentaire