Google a créé une IA capable de générer de la musique à partir de descriptions textuelles, mais ne la publiera pas • TechCrunch

Un nouveau système d’IA impressionnant de Google peut générer de la musique dans n’importe quel genre avec une description textuelle. Mais la société, craignant les risques, n’a pas l’intention de le libérer dans l’immédiat.

Appelé MusicLM, Google n’est certainement pas le premier système d’IA générative pour la chanson. Il y a eu d’autres tentatives, notamment Riffusion, une IA qui compose de la musique en la visualisant, ainsi que Dance Diffusion, AudioML de Google et Jukebox d’OpenAI. Mais en raison de limitations techniques et de données de formation limitées, aucun n’a été en mesure de produire des chansons particulièrement complexes dans la composition ou de haute fidélité.

MusicLM est peut-être le premier qui le peut.

Détaillé dans un article académique, MusicLM a été formé sur un ensemble de données de 280 000 heures de musique pour apprendre à générer des chansons cohérentes pour des descriptions – comme le disent les créateurs – d’une “complexité significative” (par exemple “chanson de jazz enchanteresse avec un solo de saxophone mémorable et un chanteur solo » ou « techno berlinoise des années 90 avec une basse basse et un coup de pied puissant ». Ses chansons, remarquablement, ressemblent à quelque chose qu’un artiste humain pourrait composer, mais pas nécessairement aussi inventives ou musicalement cohérentes.

Il est difficile d’exagérer à quel point bon les échantillons sonnent, étant donné qu’il n’y a pas de musiciens ou d’instrumentistes dans la boucle. Même lorsqu’il est nourri de descriptions un peu longues et sinueuses, MusicLM parvient à capturer des nuances telles que des riffs instrumentaux, des mélodies et des ambiances.

La légende de l’exemple ci-dessous, par exemple, incluait le bit “induit l’expérience d’être perdu dans l’espace”, et il livre certainement sur ce front (au moins à mes oreilles):


Voici un autre exemple, généré à partir d’une description commençant par la phrase “La bande originale principale d’un jeu d’arcade”. Vraisemblable, non ?

Les capacités de MusicLM s’étendent au-delà de la génération de courts extraits de chansons. Les chercheurs de Google montrent que le système peut s’appuyer sur des mélodies existantes, qu’elles soient fredonnées, chantées, sifflées ou jouées sur un instrument. De plus, MusicLM peut prendre plusieurs descriptions écrites en séquence (par exemple “le temps de méditer”, “le temps de se réveiller”, “le temps de courir”, “le temps de se donner à 100 %) et créer une sorte d'”histoire” ou de récit mélodique. allant jusqu’à plusieurs minutes – parfaitement adapté à une bande originale de film.

Voir ci-dessous, qui est issu de la séquence “chanson électronique jouée dans un jeu vidéo”, “chanson de méditation jouée à côté d’une rivière”, “feu”, “feu d’artifice”.

Ce n’est pas tout. MusicLM peut également être instruit via une combinaison d’image et de légende, ou générer de l’audio qui est “joué” par un type spécifique d’instrument dans un certain genre. Même le niveau d’expérience du « musicien » IA peut être défini, et le système peut créer de la musique inspirée par des lieux, des époques ou des exigences (par exemple, une musique de motivation pour les entraînements).

Mais MusicLM n’est certainement pas parfait – loin de là, en vérité. Certains des échantillons ont une qualité déformée, un effet secondaire inévitable du processus de formation. Et bien que MusicLM puisse techniquement générer des voix, y compris des harmonies chorales, elles laissent beaucoup à désirer. La plupart des «paroles» vont de l’anglais à peine au pur charabia, chantées par des voix synthétisées qui ressemblent à des amalgames de plusieurs artistes.

Pourtant, les chercheurs de Google notent les nombreux défis éthiques posés par un système comme MusicLM, y compris une tendance à incorporer du matériel protégé par le droit d’auteur à partir de données de formation dans les chansons générées. Au cours d’une expérience, ils ont découvert qu’environ 1% de la musique générée par le système était directement répliquée à partir des chansons sur lesquelles il s’entraînait – un seuil apparemment suffisamment élevé pour les décourager de publier MusicLM dans son état actuel.

“Nous reconnaissons le risque de détournement potentiel de contenu créatif associé au cas d’utilisation”, ont écrit les co-auteurs de l’article. “Nous soulignons fortement la nécessité de travaux futurs supplémentaires pour lutter contre ces risques associés à la génération de musique.”

En supposant que MusicLM ou un système comme celui-ci soit un jour mis à disposition, il semble inévitable que des problèmes juridiques majeurs se présentent, même si les systèmes sont positionnés comme des outils pour aider les artistes plutôt que pour les remplacer. Ils en ont déjà, mais autour de systèmes d’IA plus simples. En 2020, le label de Jay-Z a déposé des grèves pour atteinte aux droits d’auteur contre une chaîne YouTube, Vocal Synthesis, pour avoir utilisé l’IA pour créer des reprises de Jay-Z de chansons comme “We Didn’t Start the Fire” de Billy Joel. Après avoir initialement supprimé les vidéos, YouTube les a rétablies, estimant que les demandes de retrait étaient “incomplètes”. Mais la musique deepfake repose toujours sur un terrain juridique trouble.

Un livre blanc rédigé par Eric Sunray, maintenant stagiaire juridique à la Music Publishers Association, soutient que les générateurs de musique IA comme MusicLM violent le droit d’auteur de la musique en créant “des tapisseries d’audio cohérent à partir des œuvres qu’ils ingèrent lors de la formation, enfreignant ainsi la reproduction de la loi américaine sur le droit d’auteur. droite.” Après la sortie de Jukebox, les critiques se sont également demandé si la formation de modèles d’IA sur du matériel musical protégé par le droit d’auteur constituait un usage loyal. Des préoccupations similaires ont été soulevées concernant les données de formation utilisées dans les systèmes d’IA générant des images, des codes et des textes, qui sont souvent extraites du Web à l’insu des créateurs.

Du point de vue de l’utilisateur, Andy Baio de Waxy spécule que la musique générée par un système d’IA serait considérée comme une œuvre dérivée, auquel cas seuls les éléments originaux seraient protégés par le droit d’auteur. Bien sûr, on ne sait pas ce qui pourrait être considéré comme « original » dans une telle musique ; utiliser cette musique à des fins commerciales, c’est entrer dans des eaux inexplorées. C’est plus simple si la musique générée est utilisée à des fins protégées par l’utilisation équitable, comme la parodie et les commentaires, mais Baio s’attend à ce que les tribunaux devraient rendre des jugements au cas par cas.

Il ne faudra peut-être pas longtemps avant qu’il y ait des éclaircissements sur la question. Plusieurs procès en cours devant les tribunaux auront probablement une incidence sur l’IA génératrice de musique, dont un concernant les droits des artistes dont le travail est utilisé pour former des systèmes d’IA à leur insu ou sans leur consentement. Mais le temps nous le dira.

Laisser un commentaire