Les faux vocaux profonds générés par l’IA ne sont pas encore effrayants

Au milieu de l’intelligence artificielle générative frénésie des derniers mois, les chercheurs en sécurité ont réexaminé la préoccupation selon laquelle les voix générées par l’IA, ou deepfakes vocaux, sont devenues suffisamment convaincantes et faciles à produire pour que les escrocs commencent à les utiliser en masse.

Il y a eu quelques incidents très médiatisés ces dernières années au cours desquels des cybercriminels auraient utilisé des deepfakes vocaux de PDG d’entreprises pour tenter de voler de grosses sommes d’argent, sans oublier que des documentaristes ont créé à titre posthume des deepfakes vocaux d’Anthony Bourdain. Mais les criminels sont-ils à un tournant où n’importe quel spam donné pourrait contenir la voix clonée de votre frère cherchant désespérément “l’argent de la caution ?” Non, disent les chercheurs, du moins pas encore.

La technologie permettant de créer des deepfakes vocaux convaincants et robustes est puissante et de plus en plus répandue dans des environnements contrôlés ou des situations où des enregistrements étendus de la voix d’une personne sont disponibles. Fin février, le journaliste de Motherboard, Joseph Cox, a publié des conclusions selon lesquelles il avait enregistré cinq minutes de lui-même en train de parler, puis avait utilisé un service d’IA générative accessible au public, ElevenLabs, pour créer des deepfakes vocaux qui ont vaincu le système d’authentification vocale d’une banque. Mais à l’instar des lacunes de l’IA générative sur d’autres supports, y compris les limitations des chatbots de génération de texte, les services de deepfake vocal ne peuvent toujours pas produire de manière cohérente des résultats parfaits.

“Selon le scénario d’attaque, les capacités en temps réel et la qualité de l’échantillon de voix volé doivent être prises en compte”, déclare Lea Schönherr, chercheuse en sécurité et en apprentissage automatique contradictoire au CISPA Helmholtz Center for Information Security en Allemagne. “Bien qu’on dise souvent que seules quelques secondes de la voix volée sont nécessaires, la qualité et la longueur ont un impact important sur le résultat du deepfake audio.”

Les escroqueries numériques et les attaques d’ingénierie sociale comme le phishing sont une menace apparemment sans cesse croissante, mais les chercheurs notent que les escroqueries dans lesquelles les attaquants appellent une victime et tentent de se faire passer pour quelqu’un que la cible connaît existent depuis des décennies – aucune IA n’est nécessaire. Et le fait même de leur longévité signifie que ces arnaques sont au moins quelque peu efficaces pour inciter les gens à envoyer de l’argent aux attaquants.

« Ces escroqueries existent depuis toujours. La plupart du temps, cela ne fonctionne pas, mais parfois, ils ont une victime qui est prête à croire ce qu’ils disent, pour une raison quelconque », explique Crane Hassold, chercheur de longue date en ingénierie sociale et ancien analyste du comportement numérique pour le FBI. “Plusieurs fois, ces victimes jureront que la personne à qui elles parlaient était la personne usurpée alors qu’en réalité, c’est juste leur cerveau qui comble les lacunes.”

Hassold dit que sa grand-mère a été victime d’une escroquerie d’usurpation d’identité au milieu des années 2000 lorsque des attaquants l’ont appelé et se sont fait passer pour lui, la persuadant de leur envoyer 1 500 $.

«Avec ma grand-mère, l’escroc n’a pas dit qui appelait au départ, ils ont juste commencé à parler de la façon dont ils avaient été arrêtés alors qu’ils assistaient à un festival de musique au Canada et avaient besoin qu’elle envoie de l’argent pour une caution. Sa réponse a été ‘Crane, c’est toi ?’ et puis ils avaient exactement ce dont ils avaient besoin », dit-il. “Les escrocs incitent essentiellement leurs victimes à croire ce qu’ils veulent qu’ils croient.”

Comme pour de nombreuses escroqueries par ingénierie sociale, les escroqueries à l’usurpation d’identité fonctionnent mieux lorsque la cible est prise dans un sentiment d’urgence et essaie simplement d’aider quelqu’un ou d’accomplir une tâche qu’elle estime être sa responsabilité.

“Ma grand-mère m’a laissé un message vocal pendant que je conduisais pour me rendre au travail en disant quelque chose comme” J’espère que tu vas bien. Ne vous inquiétez pas, j’ai envoyé l’argent, et je ne le dirai à personne », dit Hassold.

Justin Hutchens, directeur de la recherche et du développement de la société de cybersécurité Set Solutions, dit qu’il considère les escroqueries vocales profondes comme une préoccupation croissante, mais il s’inquiète également d’un avenir dans lequel les escroqueries basées sur l’IA deviendront encore plus automatisées.

“Je m’attends à ce que dans un avenir proche, nous commencions à voir des acteurs de la menace combiner la technologie vocale deepfake avec les interactions conversationnelles prises en charge par de grands modèles de langage”, a déclaré Hutchens à propos de plates-formes comme ChatGPT d’Open AI.

Pour l’instant, cependant, Hassold met en garde contre le fait d’être trop rapide pour supposer que les escroqueries par imitation de voix sont motivées par des deepfakes. Après tout, la version analogique de l’arnaque est toujours là et toujours convaincante pour la bonne cible au bon moment.

Laisser un commentaire