Les poursuites judiciaires en cours contre l’IA générative ne sont qu’un début • TechCrunch

Alors que l’IA générative entre le courant dominant, chaque nouveau jour apporte un nouveau procès.

Microsoft, GitHub et OpenAI sont actuellement poursuivis dans le cadre d’un recours collectif qui les accuse d’avoir enfreint la loi sur le droit d’auteur en autorisant Copilot, un système d’IA générant du code formé sur des milliards de lignes de code public, à régurgiter des extraits de code sous licence sans fournir de crédit.

Midjourney et Stability AI, deux sociétés à l’origine d’outils d’art IA populaires, sont dans le collimateur d’une affaire judiciaire alléguant qu’elles ont enfreint les droits de millions d’artistes en entraînant leurs outils sur des images récupérées sur le Web.

Et pas plus tard que la semaine dernière, le fournisseur d’images de stock Getty Images a poursuivi Stability AI en justice pour avoir prétendument utilisé des millions d’images de son site sans autorisation pour former Stable Diffusion, une IA génératrice d’art.

Le problème, principalement, est la tendance de l’IA générative à reproduire des images, du texte et plus encore – y compris du contenu protégé par le droit d’auteur – à partir des données qui ont été utilisées pour l’entraîner. Dans un exemple récent, un outil d’IA utilisé par CNET pour écrire des articles explicatifs s’est avéré avoir plagié des articles écrits par des humains – des articles vraisemblablement balayés dans son ensemble de données de formation. Pendant ce temps, une étude universitaire publiée en décembre a révélé que les modèles d’IA générant des images comme DALL-E 2 et Stable Diffusion peuvent reproduire et reproduisent des aspects des images à partir de leurs données d’entraînement.

L’espace de l’IA générative reste sain – il a levé 1,3 milliard de dollars en financement de capital-risque jusqu’en novembre 2022, selon PitchBook, en hausse de 15 % par rapport à l’année précédente. Mais les questions juridiques commencent à affecter les affaires.

Certaines plates-formes d’hébergement d’images ont interdit le contenu généré par l’IA par crainte d’un retour de bâton juridique. Et plusieurs experts juridiques ont averti que les outils d’IA générative pourraient mettre les entreprises en danger si elles intégraient involontairement du contenu protégé par le droit d’auteur généré par les outils dans l’un des produits qu’elles vendent.

“Malheureusement, je m’attends à un flot de litiges pour presque tous les produits d’IA générative”, a déclaré Heather Meeker, experte juridique en licences de logiciels open source et associée générale chez OSS Capital, à TechCrunch par e-mail. “La loi sur le droit d’auteur doit être clarifiée.”

Des créateurs de contenu tels que l’artiste polonais Greg Rutkowski, connu pour créer des paysages fantastiques, sont devenus le visage de campagnes protestant contre le traitement des artistes par les startups génératives de l’IA. Rutkowski s’est plaint du fait que taper un texte comme “Un sorcier avec une épée et un orbe lumineux de feu magique combat un dragon féroce Greg Rutkowski” créera une image qui ressemble beaucoup à son travail original – menaçant ses revenus.

Étant donné que l’IA générative ne va nulle part, que se passe-t-il ensuite ? Quelles affaires judiciaires ont du mérite et quelles batailles judiciaires se profilent à l’horizon ?

Eliana Torres, avocate en propriété intellectuelle chez Nixon Peabody, affirme que les allégations du recours collectif contre Stability AI, Midjourney et DeviantArt seront difficiles à prouver devant les tribunaux. En particulier, elle pense qu’il sera difficile de déterminer quelles images ont été utilisées pour entraîner les systèmes d’IA, car l’art généré par les systèmes ne ressemblera pas nécessairement exactement à l’une des images d’entraînement.

Les systèmes de génération d’images de pointe comme Stable Diffusion sont ce qu’on appelle des modèles de « diffusion ». Les modèles de diffusion apprennent à créer des images à partir d’invites textuelles (par exemple, “un croquis d’un oiseau perché sur un rebord de fenêtre”) au fur et à mesure qu’ils progressent dans des ensembles de données d’entraînement massifs. Les modèles sont formés pour « recréer » des images au lieu de les dessiner à partir de zéro, en commençant par du bruit pur et en affinant l’image au fil du temps pour la rapprocher progressivement de l’invite de texte.

Les récréations parfaites ne se produisent pas souvent, au point de Torres. Quant aux images dans le style d’un artiste particulier, le style s’est avéré presque impossible à protéger par le droit d’auteur.

« Il sera… difficile d’obtenir une acceptation générale de la définition de « dans le style de » comme « une œuvre que d’autres accepteraient comme une œuvre créée par cet artiste dont style a été sollicité», ce qui est mentionné dans la plainte [i.e. against Stability AI et al.]”, a déclaré Torres à TechCrunch dans une interview par e-mail.

Torres pense également que la poursuite ne devrait pas être dirigée contre les créateurs de ces systèmes d’IA, mais contre la partie responsable de la compilation des images utilisées pour les former : Large-scale Artificial Intelligence Open Network (LAION), une organisation à but non lucratif. Midjourney, DeviantArt et Stability AI utilisent les données d’entraînement des ensembles de données de LAION, qui couvrent des milliards d’images provenant du Web.

“Si LAION a créé l’ensemble de données, alors l’infraction présumée s’est produite à ce stade, pas une fois que l’ensemble de données a été utilisé pour former les modèles”, a déclaré Torres. “C’est de la même manière qu’un humain peut entrer dans une galerie et regarder des peintures mais n’est pas autorisé à prendre des photos.”

Des entreprises comme Stability AI et OpenAI, la société derrière ChatGPT, affirment depuis longtemps que «l’utilisation équitable» les protège dans le cas où leurs systèmes seraient formés sur du contenu sous licence. Cette doctrine inscrite dans la loi américaine permet une utilisation limitée du matériel protégé par le droit d’auteur sans avoir à obtenir au préalable l’autorisation du titulaire des droits.

Les partisans soulignent des cas comme Authors Guild v. Google, dans laquelle la Cour d’appel des États-Unis pour le deuxième circuit, basée à New York, a statué que Google numérisant manuellement des millions de livres protégés par le droit d’auteur sans licence pour créer son projet de recherche de livres était un usage loyal. Ce qui constitue une utilisation équitable est constamment remis en question et révisé, mais dans le domaine de l’IA générative, c’est une théorie particulièrement non testée.

Un article récent de Bloomberg Law affirme que le succès d’une défense d’utilisation équitable dépendra de la question de savoir si les œuvres générées par l’IA sont considérées transformateur — en d’autres termes, s’ils utilisent les œuvres protégées par le droit d’auteur d’une manière qui diffère considérablement des originaux. La jurisprudence antérieure, en particulier la décision Google contre Oracle de 2021 de la Cour suprême, suggère que l’utilisation des données collectées pour créer de nouvelles œuvres peut être transformatrice. Dans ce cas, l’utilisation par Google de portions de code Java SE pour créer son système d’exploitation Android s’est avérée être une utilisation équitable.

Fait intéressant, d’autres pays ont signalé une évolution vers une utilisation plus permissive du contenu accessible au public, protégé ou non par le droit d’auteur. Par exemple, le Royaume-Uni prévoit de modifier une loi existante pour autoriser l’exploration de textes et de données « à toutes fins », déplaçant l’équilibre du pouvoir loin des titulaires de droits et fortement vers les entreprises et autres entités commerciales. Cependant, il n’y a pas eu d’appétit pour un tel changement aux États-Unis, et Torres ne s’attend pas à ce que cela change de sitôt, voire jamais.

L’affaire Getty est légèrement plus nuancée. Getty – qui Torres note qu’il n’a pas encore déposé de plainte officielle – doit montrer les dommages et relier toute infraction alléguée à des images spécifiques. Mais la déclaration de Getty mentionne qu’elle n’a aucun intérêt à des dommages-intérêts et qu’elle recherche simplement un “nouveau statu quo juridique”.

Andrew Burt, l’un des fondateurs du cabinet d’avocats spécialisé dans l’IA BNH.ai, n’est pas d’accord avec Torres dans la mesure où il pense que les poursuites en matière d’IA générative axées sur les questions de propriété intellectuelle seront “relativement simples”. Selon lui, si des données protégées par le droit d’auteur étaient utilisées pour former des systèmes d’IA – que ce soit en raison de la propriété intellectuelle ou de restrictions de confidentialité – ces systèmes devraient et seront passibles d’amendes ou d’autres sanctions.

Burt a noté que la Federal Trade Commission (FTC) suit déjà cette voie avec ce qu’elle appelle le «dégorgement algorithmique», où elle oblige les entreprises technologiques à tuer les algorithmes problématiques ainsi que toutes les données mal acquises qu’elles ont utilisées pour les former. Dans un exemple récent, la FTC a utilisé le remède du dégorgement algorithmique pour forcer Everalbum, le fabricant d’une application mobile désormais disparue appelée Ever, à supprimer les algorithmes de reconnaissance faciale que la société a développés à l’aide de contenu téléchargé par des personnes qui ont utilisé son application. (Everalbum n’a pas précisé que les données des utilisateurs étaient utilisées à cette fin.)

“Je m’attendrais à ce que les systèmes d’IA génératifs ne soient pas différents des systèmes d’IA traditionnels de cette manière”, a déclaré Burt.

Que doivent alors faire les entreprises en l’absence de précédent et d’orientation ? Torres et Burt s’accordent à dire qu’il n’y a pas de réponse évidente.

Pour sa part, Torres recommande de regarder de près les conditions d’utilisation de chaque système d’IA générative commercial. Elle note que Midjourney a des droits différents pour les utilisateurs payants et non rémunérés, tandis que DALL-E d’OpenAI attribue des droits sur l’art généré aux utilisateurs tout en les avertissant du «contenu similaire» et en encourageant la diligence raisonnable pour éviter les infractions.

“Les entreprises doivent être conscientes des conditions d’utilisation et faire preuve de diligence raisonnable, par exemple en utilisant des recherches d’images inversées du travail généré destiné à être utilisé à des fins commerciales”, a-t-elle ajouté.

Burt recommande aux entreprises d’adopter des cadres de gestion des risques tels que le cadre de gestion des risques de l’IA publié par l’Institut national des normes et de la technologie, qui donne des conseils sur la manière de traiter et d’atténuer les risques dans la conception et l’utilisation des systèmes d’IA. Il suggère également que les entreprises testent et surveillent en permanence leurs systèmes pour détecter d’éventuelles responsabilités légales.

“Alors que les systèmes d’IA génératifs rendent la gestion des risques liés à l’IA plus difficile – il est, pour être juste, beaucoup plus simple de surveiller un système d’IA qui fait des prédictions binaires pour les risques – il existe des actions concrètes qui peuvent être prises”, a déclaré Burt.

Certaines entreprises, sous la pression des militants et des créateurs de contenu, ont fait des pas dans la bonne direction. Stability AI prévoit de permettre aux artistes de se retirer de l’ensemble de données utilisé pour former le modèle de diffusion stable de nouvelle génération. Par le biais du site Web HaveIBeenTrained.com, les ayants droit pourront demander leur désinscription avant le début de la formation dans quelques semaines. Rival OpenAI n’offre pas un tel mécanisme de désactivation, mais la société s’est associée à des organisations comme Shutterstock pour autoriser des parties de leurs galeries d’images.

Pour Copilot, GitHub a introduit un filtre qui vérifie les suggestions de code avec leur code environnant d’environ 150 caractères par rapport au code GitHub public et masque les suggestions s’il y a une correspondance ou une « quasi-correspondance ». C’est une mesure imparfaite – l’activation du filtre peut amener Copilot à omettre des éléments clés du texte d’attribution et de licence – mais GitHub a déclaré qu’il prévoyait d’introduire des fonctionnalités supplémentaires en 2023 visant à aider les développeurs à prendre des décisions éclairées sur l’opportunité d’utiliser les suggestions de Copilot.

Prenant la vue à dix mille pieds, Burt pense que l’IA générative est de plus en plus déployée sans comprendre comment faire face à ses dangers. Il loue les efforts pour lutter contre les problèmes évidents, comme les œuvres protégées par le droit d’auteur utilisées pour former les générateurs de contenu. Mais il prévient que l’opacité des systèmes exercera une pression sur les entreprises pour empêcher les systèmes de faire des ravages – et avoir un plan pour faire face aux risques des systèmes avant qu’ils ne soient mis dans la nature.

“Les modèles d’IA générative sont parmi les utilisations les plus passionnantes et les plus novatrices de l’IA – avec le potentiel évident de transformer “l’économie du savoir””, a-t-il déclaré. “Tout comme pour l’IA dans de nombreux autres domaines, la technologie est en grande partie là et prête à l’emploi. Ce qui n’est pas encore mûr, ce sont les moyens de gérer l’ensemble de ses risques. Sans une évaluation et une gestion réfléchies et matures des dommages de ces systèmes, nous risquons de déployer une technologie avant de comprendre comment l’empêcher de causer des dommages.

Meeker est plus pessimiste, affirmant que toutes les entreprises – quelles que soient les mesures d’atténuation qu’elles entreprennent – ​​ne seront pas en mesure d’assumer les frais juridiques associés à l’IA générative. Cela souligne le besoin urgent de clarification ou de modifications de la loi sur le droit d’auteur, dit-elle.

“Si les développeurs d’IA ne savent pas quelles données ils peuvent utiliser pour former des modèles, la technologie pourrait être retardée de plusieurs années”, a déclaré Meeker. “Dans un sens, ils ne peuvent rien faire, car si les entreprises ne sont pas en mesure de former légalement des modèles sur des matériaux librement disponibles, elles n’auront pas suffisamment de données pour former les modèles. Il n’y a que diverses solutions à long terme comme les modèles opt-in ou opt-out, ou les systèmes qui regroupent les redevances pour le paiement à tous les auteurs… Les poursuites contre les entreprises d’IA pour avoir ingéré du matériel protégé par le droit d’auteur pour former des modèles sont potentiellement paralysantes pour l’industrie, [and] pourrait entraîner une consolidation qui limiterait l’innovation.

Laisser un commentaire