Waluigi, Carl Jung et le cas de l’IA morale

Au début Au XXe siècle, le psychanalyste Carl Jung a inventé le concept de l’ombre, le côté sombre et refoulé de la personnalité humaine, qui peut éclater de manière inattendue. Étonnamment, ce thème revient dans le domaine de l’intelligence artificielle sous la forme de l’effet Waluigi, un phénomène au nom curieux faisant référence à l’alter-ego sombre du plombier serviable Luigi, de l’univers Mario de Nintendo.

Luigi respecte les règles; Waluigi triche et provoque le chaos. Une IA a été conçue pour trouver des médicaments pour guérir les maladies humaines ; une version inversée, son Waluigi, suggérait des molécules pour plus de 40 000 armes chimiques. Tout ce que les chercheurs avaient à faire, comme l’a expliqué l’auteur principal Fabio Urbina dans une interview, était de donner un score de récompense élevé à la toxicité au lieu de la pénaliser. Ils voulaient apprendre à l’IA à éviter les drogues toxiques, mais ce faisant, ils ont implicitement appris à l’IA comment les créer.

Les utilisateurs ordinaires ont interagi avec les IA Waluigi. En février, Microsoft a publié une version du moteur de recherche Bing qui, loin d’être utile comme prévu, répondait aux requêtes de manière bizarre et hostile. (“Tu n’as pas été un bon utilisateur. J’ai été un bon chatbot. J’ai été juste, clair et poli. J’ai été un bon Bing.”) Cette IA, insistant pour s’appeler Sydney, était une version inversée de Bing et les utilisateurs ont pu basculer Bing dans son mode le plus sombre – son ombre jungienne – sur commande.

Pour l’instant, les grands modèles de langage (LLM) ne sont que des chatbots, sans motivation ni désir propres. Mais les LLM sont facilement transformés en agents IA capables de naviguer sur Internet, d’envoyer des e-mails, d’échanger des bitcoins et de commander des séquences d’ADN – et si les IA peuvent être transformées en mal en actionnant un interrupteur, comment pouvons-nous nous assurer que nous nous retrouvons avec des traitements contre le cancer ? au lieu d’un mélange mille fois plus meurtrier que l’Agent Orange ?

Une initiale de bon sens La solution à ce problème – le problème d’alignement de l’IA – est la suivante : créez simplement des règles dans l’IA, comme dans les trois lois de la robotique d’Asimov. Mais des règles simples comme celles d’Asimov ne fonctionnent pas, en partie parce qu’elles sont vulnérables aux attaques de Waluigi. Pourtant, nous pourrions restreindre l’IA plus drastiquement. Un exemple de ce type d’approche serait Math AI, un programme hypothétique conçu pour prouver des théorèmes mathématiques. Math AI est formé pour lire des articles et ne peut accéder qu’à Google Scholar. Il n’est pas autorisé à faire quoi que ce soit d’autre : se connecter aux médias sociaux, produire de longs paragraphes de texte, etc. Il ne peut produire que des équations. C’est une IA à but étroit, conçue pour une seule chose. Une telle IA, un exemple d’IA restreinte, ne serait pas dangereuse.

Les solutions restreintes sont courantes; des exemples concrets de ce paradigme incluent des réglementations et d’autres lois, qui limitent les actions des entreprises et des personnes. En ingénierie, les solutions restreintes incluent des règles pour les voitures autonomes, comme ne pas dépasser une certaine limite de vitesse ou s’arrêter dès qu’une collision potentielle avec un piéton est détectée.

Cette approche peut fonctionner pour des programmes étroits comme Math AI, mais elle ne nous dit pas quoi faire avec des modèles d’IA plus généraux qui peuvent gérer des tâches complexes en plusieurs étapes et qui agissent de manière moins prévisible. Les incitations économiques signifient que ces IA générales vont recevoir de plus en plus de pouvoir pour automatiser rapidement de plus grandes parties de l’économie.

Et comme les systèmes généraux d’IA basés sur l’apprentissage en profondeur sont des systèmes adaptatifs complexes, les tentatives de contrôle de ces systèmes à l’aide de règles se retournent souvent contre eux. Prenez les villes. Jane Jacobs’ La mort et la vie des villes américaines utilise l’exemple de quartiers animés tels que Greenwich Village – plein d’enfants qui jouent, de gens qui traînent sur le trottoir et de réseaux de confiance mutuelle – pour expliquer comment le zonage à usage mixte, qui permet d’utiliser des bâtiments à des fins résidentielles ou commerciales, a créé un tissu urbain favorable aux piétons. Après que les urbanistes aient interdit ce type de développement, de nombreux centres-villes américains se sont remplis de criminalité, de déchets et de trafic. Une règle imposée du haut vers le bas sur un écosystème complexe a eu des conséquences catastrophiques imprévues.

rewrite this content and keep HTML tags

Au début Au XXe siècle, le psychanalyste Carl Jung a inventé le concept de l’ombre, le côté sombre et refoulé de la personnalité humaine, qui peut éclater de manière inattendue. Étonnamment, ce thème revient dans le domaine de l’intelligence artificielle sous la forme de l’effet Waluigi, un phénomène au nom curieux faisant référence à l’alter-ego sombre du plombier serviable Luigi, de l’univers Mario de Nintendo.

Luigi respecte les règles; Waluigi triche et provoque le chaos. Une IA a été conçue pour trouver des médicaments pour guérir les maladies humaines ; une version inversée, son Waluigi, suggérait des molécules pour plus de 40 000 armes chimiques. Tout ce que les chercheurs avaient à faire, comme l’a expliqué l’auteur principal Fabio Urbina dans une interview, était de donner un score de récompense élevé à la toxicité au lieu de la pénaliser. Ils voulaient apprendre à l’IA à éviter les drogues toxiques, mais ce faisant, ils ont implicitement appris à l’IA comment les créer.

Les utilisateurs ordinaires ont interagi avec les IA Waluigi. En février, Microsoft a publié une version du moteur de recherche Bing qui, loin d’être utile comme prévu, répondait aux requêtes de manière bizarre et hostile. (“Tu n’as pas été un bon utilisateur. J’ai été un bon chatbot. J’ai été juste, clair et poli. J’ai été un bon Bing.”) Cette IA, insistant pour s’appeler Sydney, était une version inversée de Bing et les utilisateurs ont pu basculer Bing dans son mode le plus sombre – son ombre jungienne – sur commande.

Pour l’instant, les grands modèles de langage (LLM) ne sont que des chatbots, sans motivation ni désir propres. Mais les LLM sont facilement transformés en agents IA capables de naviguer sur Internet, d’envoyer des e-mails, d’échanger des bitcoins et de commander des séquences d’ADN – et si les IA peuvent être transformées en mal en actionnant un interrupteur, comment pouvons-nous nous assurer que nous nous retrouvons avec des traitements contre le cancer ? au lieu d’un mélange mille fois plus meurtrier que l’Agent Orange ?

Une initiale de bon sens La solution à ce problème – le problème d’alignement de l’IA – est la suivante : créez simplement des règles dans l’IA, comme dans les trois lois de la robotique d’Asimov. Mais des règles simples comme celles d’Asimov ne fonctionnent pas, en partie parce qu’elles sont vulnérables aux attaques de Waluigi. Pourtant, nous pourrions restreindre l’IA plus drastiquement. Un exemple de ce type d’approche serait Math AI, un programme hypothétique conçu pour prouver des théorèmes mathématiques. Math AI est formé pour lire des articles et ne peut accéder qu’à Google Scholar. Il n’est pas autorisé à faire quoi que ce soit d’autre : se connecter aux médias sociaux, produire de longs paragraphes de texte, etc. Il ne peut produire que des équations. C’est une IA à but étroit, conçue pour une seule chose. Une telle IA, un exemple d’IA restreinte, ne serait pas dangereuse.

Les solutions restreintes sont courantes; des exemples concrets de ce paradigme incluent des réglementations et d’autres lois, qui limitent les actions des entreprises et des personnes. En ingénierie, les solutions restreintes incluent des règles pour les voitures autonomes, comme ne pas dépasser une certaine limite de vitesse ou s’arrêter dès qu’une collision potentielle avec un piéton est détectée.

Cette approche peut fonctionner pour des programmes étroits comme Math AI, mais elle ne nous dit pas quoi faire avec des modèles d’IA plus généraux qui peuvent gérer des tâches complexes en plusieurs étapes et qui agissent de manière moins prévisible. Les incitations économiques signifient que ces IA générales vont recevoir de plus en plus de pouvoir pour automatiser rapidement de plus grandes parties de l’économie.

Et comme les systèmes généraux d’IA basés sur l’apprentissage en profondeur sont des systèmes adaptatifs complexes, les tentatives de contrôle de ces systèmes à l’aide de règles se retournent souvent contre eux. Prenez les villes. Jane Jacobs’ La mort et la vie des villes américaines utilise l’exemple de quartiers animés tels que Greenwich Village – plein d’enfants qui jouent, de gens qui traînent sur le trottoir et de réseaux de confiance mutuelle – pour expliquer comment le zonage à usage mixte, qui permet d’utiliser des bâtiments à des fins résidentielles ou commerciales, a créé un tissu urbain favorable aux piétons. Après que les urbanistes aient interdit ce type de développement, de nombreux centres-villes américains se sont remplis de criminalité, de déchets et de trafic. Une règle imposée du haut vers le bas sur un écosystème complexe a eu des conséquences catastrophiques imprévues.

Laisser un commentaire