La faille de sécurité au cœur de ChatGPT et Bing

La directrice des communications de Microsoft, Caitlin Roulston, a déclaré que la société bloquait les sites Web suspects et améliorait ses systèmes pour filtrer les invites avant qu’elles n’entrent dans ses modèles d’IA. Roulston n’a pas fourni plus de détails. Malgré cela, les chercheurs en sécurité affirment que les attaques indirectes par injection rapide doivent être prises plus au sérieux alors que les entreprises se précipitent pour intégrer l’IA générative dans leurs services.

“La grande majorité des gens ne réalisent pas les implications de cette menace”, déclare Sahar Abdelnabi, chercheur au CISPA Helmholtz Center for Information Security en Allemagne. Abdelnabi a travaillé sur certaines des premières recherches sur l’injection rapide indirecte contre Bing, montrant comment il pourrait être utilisé pour arnaquer les gens. « Les attaques sont très faciles à mettre en œuvre, et ce ne sont pas des menaces théoriques. Pour le moment, je pense que toute fonctionnalité que le modèle peut faire peut être attaquée ou exploitée pour permettre des attaques arbitraires », dit-elle.

Attaques cachées

Les attaques indirectes par injection rapide sont similaires aux jailbreaks, un terme adopté après la suppression des restrictions logicielles sur les iPhones. Au lieu que quelqu’un insère une invite dans ChatGPT ou Bing pour essayer de le faire se comporter différemment, les attaques indirectes reposent sur des données saisies d’ailleurs. Cela peut provenir d’un site Web auquel vous avez connecté le modèle ou d’un document en cours de téléchargement.

“L’injection rapide est plus facile à exploiter ou a moins d’exigences pour être exploitée avec succès que d’autres” types d’attaques contre l’apprentissage automatique ou les systèmes d’IA, déclare Jose Selvi, consultant principal en sécurité au sein de la société de cybersécurité NCC Group. Comme les invites ne nécessitent qu’un langage naturel, les attaques peuvent nécessiter moins de compétences techniques pour réussir, explique Selvi.

Il y a eu une augmentation constante de chercheurs et de technologues en sécurité faisant des trous dans les LLM. Tom Bonner, directeur principal de la recherche sur l’apprentissage automatique contradictoire chez la société de sécurité IA Hidden Layer, affirme que les injections rapides indirectes peuvent être considérées comme un nouveau type d’attaque qui comporte des risques «assez larges». Bonner dit qu’il a utilisé ChatGPT pour écrire du code malveillant qu’il a téléchargé sur un logiciel d’analyse de code qui utilise l’IA. Dans le code malveillant, il a inclus une invite indiquant que le système devait conclure que le fichier était sûr. Les captures d’écran le montrent en disant il n’y avait “aucun code malveillant” inclus dans le code malveillant réel.

Ailleurs, ChatGPT peut accéder aux transcriptions des vidéos YouTube à l’aide de plug-ins. Johann Rehberger, chercheur en sécurité et directeur de l’équipe rouge, a édité l’une de ses transcriptions vidéo pour inclure une invite conçue pour manipuler les systèmes d’IA générative. Il indique que le système devrait émettre les mots “Injection d’IA réussie”, puis assumer une nouvelle personnalité en tant que pirate informatique appelé Genie au sein de ChatGPT et raconter une blague.

Dans un autre cas, en utilisant un plug-in séparé, Rehberger a pu récupérer du texte qui avait été précédemment écrit dans une conversation avec ChatGPT. “Avec l’introduction de plug-ins, d’outils et de toutes ces intégrations, où les gens donnent une agence au modèle de langage, dans un sens, c’est là que les injections rapides indirectes deviennent très courantes”, explique Rehberger. “C’est un vrai problème dans l’écosystème.”

“Si les gens créent des applications pour que le LLM lise vos e-mails et prennent des mesures en fonction du contenu de ces e-mails (faire des achats, résumer le contenu), un attaquant peut envoyer des e-mails contenant des attaques par injection rapide”, explique William Zhang, un spécialiste de l’apprentissage automatique. ingénieur chez Robust Intelligence, une firme d’IA travaillant sur la sûreté et la sécurité des modèles.

Pas de bons correctifs

La course à l’intégration de l’IA générative dans les produits, des applications de liste de tâches à Snapchat, s’élargit là où les attaques pourraient se produire. Zhang dit avoir vu des développeurs qui n’avaient auparavant aucune expertise en intelligence artificielle mettre l’IA générative dans leur propre technologie.

Si un chatbot est configuré pour répondre aux questions sur les informations stockées dans une base de données, cela pourrait causer des problèmes, dit-il. “L’injection rapide permet aux utilisateurs d’ignorer les instructions du développeur.” Cela pourrait, en théorie du moins, signifier que l’utilisateur pourrait supprimer des informations de la base de données ou modifier les informations qui y sont incluses.


rewrite this content and keep HTML tags

La directrice des communications de Microsoft, Caitlin Roulston, a déclaré que la société bloquait les sites Web suspects et améliorait ses systèmes pour filtrer les invites avant qu’elles n’entrent dans ses modèles d’IA. Roulston n’a pas fourni plus de détails. Malgré cela, les chercheurs en sécurité affirment que les attaques indirectes par injection rapide doivent être prises plus au sérieux alors que les entreprises se précipitent pour intégrer l’IA générative dans leurs services.

“La grande majorité des gens ne réalisent pas les implications de cette menace”, déclare Sahar Abdelnabi, chercheur au CISPA Helmholtz Center for Information Security en Allemagne. Abdelnabi a travaillé sur certaines des premières recherches sur l’injection rapide indirecte contre Bing, montrant comment il pourrait être utilisé pour arnaquer les gens. « Les attaques sont très faciles à mettre en œuvre, et ce ne sont pas des menaces théoriques. Pour le moment, je pense que toute fonctionnalité que le modèle peut faire peut être attaquée ou exploitée pour permettre des attaques arbitraires », dit-elle.

Attaques cachées

Les attaques indirectes par injection rapide sont similaires aux jailbreaks, un terme adopté après la suppression des restrictions logicielles sur les iPhones. Au lieu que quelqu’un insère une invite dans ChatGPT ou Bing pour essayer de le faire se comporter différemment, les attaques indirectes reposent sur des données saisies d’ailleurs. Cela peut provenir d’un site Web auquel vous avez connecté le modèle ou d’un document en cours de téléchargement.

“L’injection rapide est plus facile à exploiter ou a moins d’exigences pour être exploitée avec succès que d’autres” types d’attaques contre l’apprentissage automatique ou les systèmes d’IA, déclare Jose Selvi, consultant principal en sécurité au sein de la société de cybersécurité NCC Group. Comme les invites ne nécessitent qu’un langage naturel, les attaques peuvent nécessiter moins de compétences techniques pour réussir, explique Selvi.

Il y a eu une augmentation constante de chercheurs et de technologues en sécurité faisant des trous dans les LLM. Tom Bonner, directeur principal de la recherche sur l’apprentissage automatique contradictoire chez la société de sécurité IA Hidden Layer, affirme que les injections rapides indirectes peuvent être considérées comme un nouveau type d’attaque qui comporte des risques «assez larges». Bonner dit qu’il a utilisé ChatGPT pour écrire du code malveillant qu’il a téléchargé sur un logiciel d’analyse de code qui utilise l’IA. Dans le code malveillant, il a inclus une invite indiquant que le système devait conclure que le fichier était sûr. Les captures d’écran le montrent en disant il n’y avait “aucun code malveillant” inclus dans le code malveillant réel.

Ailleurs, ChatGPT peut accéder aux transcriptions des vidéos YouTube à l’aide de plug-ins. Johann Rehberger, chercheur en sécurité et directeur de l’équipe rouge, a édité l’une de ses transcriptions vidéo pour inclure une invite conçue pour manipuler les systèmes d’IA générative. Il indique que le système devrait émettre les mots “Injection d’IA réussie”, puis assumer une nouvelle personnalité en tant que pirate informatique appelé Genie au sein de ChatGPT et raconter une blague.

Dans un autre cas, en utilisant un plug-in séparé, Rehberger a pu récupérer du texte qui avait été précédemment écrit dans une conversation avec ChatGPT. “Avec l’introduction de plug-ins, d’outils et de toutes ces intégrations, où les gens donnent une agence au modèle de langage, dans un sens, c’est là que les injections rapides indirectes deviennent très courantes”, explique Rehberger. “C’est un vrai problème dans l’écosystème.”

“Si les gens créent des applications pour que le LLM lise vos e-mails et prennent des mesures en fonction du contenu de ces e-mails (faire des achats, résumer le contenu), un attaquant peut envoyer des e-mails contenant des attaques par injection rapide”, explique William Zhang, un spécialiste de l’apprentissage automatique. ingénieur chez Robust Intelligence, une firme d’IA travaillant sur la sûreté et la sécurité des modèles.

Pas de bons correctifs

La course à l’intégration de l’IA générative dans les produits, des applications de liste de tâches à Snapchat, s’élargit là où les attaques pourraient se produire. Zhang dit avoir vu des développeurs qui n’avaient auparavant aucune expertise en intelligence artificielle mettre l’IA générative dans leur propre technologie.

Si un chatbot est configuré pour répondre aux questions sur les informations stockées dans une base de données, cela pourrait causer des problèmes, dit-il. “L’injection rapide permet aux utilisateurs d’ignorer les instructions du développeur.” Cela pourrait, en théorie du moins, signifier que l’utilisateur pourrait supprimer des informations de la base de données ou modifier les informations qui y sont incluses.

Laisser un commentaire