Samedi, Oleksandr Tomchuk, PDG de Triplegangers, a été alerté que le site de commerce électronique de son entreprise était en panne. Cela ressemblait à une sorte d’attaque par déni de service distribué.
Il a vite découvert que le coupable était un robot d'OpenAI qui tentait sans relâche de supprimer l'intégralité de son énorme site.
“Nous avons plus de 65 000 produits, chaque produit a une page”, a déclaré Tomchuk à Testeur Joe. “Chaque page contient au moins trois photos.”
OpenAI envoyait des « dizaines de milliers » de requêtes au serveur essayant de tout télécharger, des centaines de milliers de photos, ainsi que leurs descriptions détaillées.
“OpenAI a utilisé 600 adresses IP pour récupérer des données, et nous analysons toujours les journaux de la semaine dernière, c'est peut-être bien plus”, a-t-il déclaré à propos des adresses IP utilisées par le robot pour tenter de consulter son site.
“Leurs robots écrasaient notre site”, a-t-il déclaré. “Il s'agissait essentiellement d'une attaque DDoS.”
Le site Web de Triplegangers est son affaire. L’entreprise de sept employés a passé plus d’une décennie à rassembler ce qu’elle appelle la plus grande base de données de « doubles numériques humains » sur le Web, c’est-à-dire des fichiers d’images 3D numérisés à partir de modèles humains réels.
Il vend des fichiers d'objets 3D, ainsi que des photos – des mains aux cheveux, en passant par la peau et le corps entier – aux artistes 3D, aux créateurs de jeux vidéo et à tous ceux qui ont besoin de recréer numériquement des caractéristiques humaines authentiques.
L'équipe de Tomchuk, basée en Ukraine mais également titulaire d'une licence aux États-Unis à Tampa, en Floride, dispose d'une page de conditions d'utilisation sur son site qui interdit aux robots de prendre ses images sans autorisation. Mais cela seul n’a rien fait. Les sites Web doivent utiliser un fichier robot.txt correctement configuré avec des balises indiquant spécifiquement au bot d'OpenAI, GPTBot, de quitter le site tranquille. (OpenAI possède également quelques autres robots, ChatGPT-User et OAI-SearchBot, qui ont leurs propres balises, selon sa page d'informations sur ses robots d'exploration.)
Robot.txt, également connu sous le nom de Robots Exclusion Protocol, a été créé pour indiquer aux sites des moteurs de recherche ce qu'ils ne doivent pas explorer lorsqu'ils indexent le Web. OpenAI indique sur sa page d'information qu'il honore ces fichiers lorsqu'il est configuré avec son propre ensemble de balises à ne pas explorer, bien qu'il prévienne également qu'il peut prendre jusqu'à 24 heures à ses robots pour reconnaître un fichier robot.txt mis à jour.
Comme Tomchuk l'a expérimenté, si un site n'utilise pas correctement robot.txt, OpenAI et d'autres considèrent cela comme signifiant qu'ils peuvent s'en donner à cœur joie. Ce n'est pas un système d'adhésion.
Pour ajouter l'insulte à l'injure, non seulement Triplegangers a été mis hors ligne par le bot d'OpenAI pendant les heures de bureau aux États-Unis, mais Tomchuk s'attend à une facture AWS augmentée grâce à toute l'activité du processeur et de téléchargement du bot.
Robot.txt n'est pas non plus une sécurité intégrée. Les entreprises d’IA s’y conforment volontairement. Une autre startup d'IA, Perplexity, a été interpellée l'été dernier par une enquête de Wired alors que certaines preuves impliquaient que Perplexity ne la respectait pas.
Je ne peux pas savoir avec certitude ce qui a été pris
Mercredi, après quelques jours de retour du bot d'OpenAI, Triplegangers avait mis en place un fichier robot.txt correctement configuré, ainsi qu'un compte Cloudflare configuré pour bloquer son GPTBot et plusieurs autres robots qu'il a découverts, comme Barkrowler (un robot d'exploration SEO) et Bytespider ( le robot d'exploration de TokTok). Tomchuk espère également avoir bloqué les robots d'exploration d'autres sociétés de modèles d'IA. Jeudi matin, le site n'a pas planté, a-t-il déclaré.
Mais Tomchuk n'a toujours aucun moyen raisonnable de savoir exactement ce qu'OpenAI a réussi à prendre ou de supprimer ce matériel. Il n'a trouvé aucun moyen de contacter OpenAI et de lui demander. OpenAI n'a pas répondu à la demande de commentaires de Testeur Joe. Et OpenAI n’a jusqu’à présent pas réussi à fournir son outil de désinscription promis depuis longtemps, comme l’a récemment rapporté Testeur Joe.
C'est un problème particulièrement délicat pour les Triplegangers. “Nous sommes dans un secteur où les droits sont un problème sérieux, car nous analysons de vraies personnes”, a-t-il déclaré. Avec des lois comme le RGPD européen, « ils ne peuvent pas simplement prendre une photo de n'importe qui sur le Web et l'utiliser ».
Le site Web de Triplegangers était également une trouvaille particulièrement délicieuse pour les robots d'exploration de l'IA. Des startups évaluées à plusieurs milliards de dollars, comme Scale AI, ont été créées là où les humains marquent minutieusement les images pour former l'IA. Le site de Triplegangers contient des photos étiquetées en détail : origine ethnique, âge, tatouages vs cicatrices, tous les types de corps, etc.
L’ironie est que c’est la cupidité du bot OpenAI qui a alerté les Triplegangers de son exposition. S'il avait gratté plus doucement, Tomchuk ne l'aurait jamais su, a-t-il déclaré.
“C'est effrayant car il semble y avoir une faille que ces entreprises utilisent pour explorer les données en disant “vous pouvez vous désinscrire si vous mettez à jour votre robot.txt avec nos balises”, explique Tomchuk, mais cela impose au propriétaire de l'entreprise de le faire. comprendre comment les bloquer.
Il souhaite que les autres petites entreprises en ligne sachent que la seule façon de savoir si un robot IA prend les biens protégés par le droit d'auteur d'un site Web est de le rechercher activement. Il n'est certainement pas le seul à être terrorisé par eux. Les propriétaires d'autres sites Web ont récemment expliqué à Business Insider comment les robots OpenAI ont fait planter leurs sites et ont fait grimper leurs factures AWS.
Le problème a pris de l'ampleur en 2024. Une nouvelle étude de la société de publicité numérique DoubleVerify a révélé que les robots d'exploration et les scrapers IA ont provoqué une augmentation de 86 % du « trafic général invalide » en 2024, c'est-à-dire du trafic qui ne provient pas d'un utilisateur réel.
Pourtant, « la plupart des sites n’ont aucune idée qu’ils ont été grattés par ces robots », prévient Tomchuk. “Nous devons désormais surveiller quotidiennement l'activité des journaux pour repérer ces robots.”
Quand on y réfléchit, l’ensemble du modèle fonctionne un peu comme un shakedown mafieux : les robots IA prendront ce qu’ils veulent à moins que vous ne soyez protégé.
«Ils devraient demander la permission, pas seulement récupérer des données», déclare Tomchuk.
rewrite this content and keep HTML tags
Samedi, Oleksandr Tomchuk, PDG de Triplegangers, a été alerté que le site de commerce électronique de son entreprise était en panne. Cela ressemblait à une sorte d’attaque par déni de service distribué.
Il a vite découvert que le coupable était un robot d'OpenAI qui tentait sans relâche de supprimer l'intégralité de son énorme site.
“Nous avons plus de 65 000 produits, chaque produit a une page”, a déclaré Tomchuk à Testeur Joe. “Chaque page contient au moins trois photos.”
OpenAI envoyait des « dizaines de milliers » de requêtes au serveur essayant de tout télécharger, des centaines de milliers de photos, ainsi que leurs descriptions détaillées.
“OpenAI a utilisé 600 adresses IP pour récupérer des données, et nous analysons toujours les journaux de la semaine dernière, c'est peut-être bien plus”, a-t-il déclaré à propos des adresses IP utilisées par le robot pour tenter de consulter son site.
“Leurs robots écrasaient notre site”, a-t-il déclaré. “Il s'agissait essentiellement d'une attaque DDoS.”
Le site Web de Triplegangers est son affaire. L’entreprise de sept employés a passé plus d’une décennie à rassembler ce qu’elle appelle la plus grande base de données de « doubles numériques humains » sur le Web, c’est-à-dire des fichiers d’images 3D numérisés à partir de modèles humains réels.
Il vend des fichiers d'objets 3D, ainsi que des photos – des mains aux cheveux, en passant par la peau et le corps entier – aux artistes 3D, aux créateurs de jeux vidéo et à tous ceux qui ont besoin de recréer numériquement des caractéristiques humaines authentiques.
L'équipe de Tomchuk, basée en Ukraine mais également titulaire d'une licence aux États-Unis à Tampa, en Floride, dispose d'une page de conditions d'utilisation sur son site qui interdit aux robots de prendre ses images sans autorisation. Mais cela seul n’a rien fait. Les sites Web doivent utiliser un fichier robot.txt correctement configuré avec des balises indiquant spécifiquement au bot d'OpenAI, GPTBot, de quitter le site tranquille. (OpenAI possède également quelques autres robots, ChatGPT-User et OAI-SearchBot, qui ont leurs propres balises, selon sa page d'informations sur ses robots d'exploration.)
Robot.txt, également connu sous le nom de Robots Exclusion Protocol, a été créé pour indiquer aux sites des moteurs de recherche ce qu'ils ne doivent pas explorer lorsqu'ils indexent le Web. OpenAI indique sur sa page d'information qu'il honore ces fichiers lorsqu'il est configuré avec son propre ensemble de balises à ne pas explorer, bien qu'il prévienne également qu'il peut prendre jusqu'à 24 heures à ses robots pour reconnaître un fichier robot.txt mis à jour.
Comme Tomchuk l'a expérimenté, si un site n'utilise pas correctement robot.txt, OpenAI et d'autres considèrent cela comme signifiant qu'ils peuvent s'en donner à cœur joie. Ce n'est pas un système d'adhésion.
Pour ajouter l'insulte à l'injure, non seulement Triplegangers a été mis hors ligne par le bot d'OpenAI pendant les heures de bureau aux États-Unis, mais Tomchuk s'attend à une facture AWS augmentée grâce à toute l'activité du processeur et de téléchargement du bot.
Robot.txt n'est pas non plus une sécurité intégrée. Les entreprises d’IA s’y conforment volontairement. Une autre startup d'IA, Perplexity, a été interpellée l'été dernier par une enquête de Wired alors que certaines preuves impliquaient que Perplexity ne la respectait pas.
Je ne peux pas savoir avec certitude ce qui a été pris
Mercredi, après quelques jours de retour du bot d'OpenAI, Triplegangers avait mis en place un fichier robot.txt correctement configuré, ainsi qu'un compte Cloudflare configuré pour bloquer son GPTBot et plusieurs autres robots qu'il a découverts, comme Barkrowler (un robot d'exploration SEO) et Bytespider ( le robot d'exploration de TokTok). Tomchuk espère également avoir bloqué les robots d'exploration d'autres sociétés de modèles d'IA. Jeudi matin, le site n'a pas planté, a-t-il déclaré.
Mais Tomchuk n'a toujours aucun moyen raisonnable de savoir exactement ce qu'OpenAI a réussi à prendre ou de supprimer ce matériel. Il n'a trouvé aucun moyen de contacter OpenAI et de lui demander. OpenAI n'a pas répondu à la demande de commentaires de Testeur Joe. Et OpenAI n’a jusqu’à présent pas réussi à fournir son outil de désinscription promis depuis longtemps, comme l’a récemment rapporté Testeur Joe.
C'est un problème particulièrement délicat pour les Triplegangers. “Nous sommes dans un secteur où les droits sont un problème sérieux, car nous analysons de vraies personnes”, a-t-il déclaré. Avec des lois comme le RGPD européen, « ils ne peuvent pas simplement prendre une photo de n'importe qui sur le Web et l'utiliser ».
Le site Web de Triplegangers était également une trouvaille particulièrement délicieuse pour les robots d'exploration de l'IA. Des startups évaluées à plusieurs milliards de dollars, comme Scale AI, ont été créées là où les humains marquent minutieusement les images pour former l'IA. Le site de Triplegangers contient des photos étiquetées en détail : origine ethnique, âge, tatouages vs cicatrices, tous les types de corps, etc.
L’ironie est que c’est la cupidité du bot OpenAI qui a alerté les Triplegangers de son exposition. S'il avait gratté plus doucement, Tomchuk ne l'aurait jamais su, a-t-il déclaré.
“C'est effrayant car il semble y avoir une faille que ces entreprises utilisent pour explorer les données en disant “vous pouvez vous désinscrire si vous mettez à jour votre robot.txt avec nos balises”, explique Tomchuk, mais cela impose au propriétaire de l'entreprise de le faire. comprendre comment les bloquer.
Il souhaite que les autres petites entreprises en ligne sachent que la seule façon de savoir si un robot IA prend les biens protégés par le droit d'auteur d'un site Web est de le rechercher activement. Il n'est certainement pas le seul à être terrorisé par eux. Les propriétaires d'autres sites Web ont récemment expliqué à Business Insider comment les robots OpenAI ont fait planter leurs sites et ont fait grimper leurs factures AWS.
Le problème a pris de l'ampleur en 2024. Une nouvelle étude de la société de publicité numérique DoubleVerify a révélé que les robots d'exploration et les scrapers IA ont provoqué une augmentation de 86 % du « trafic général invalide » en 2024, c'est-à-dire du trafic qui ne provient pas d'un utilisateur réel.
Pourtant, « la plupart des sites n’ont aucune idée qu’ils ont été grattés par ces robots », prévient Tomchuk. “Nous devons désormais surveiller quotidiennement l'activité des journaux pour repérer ces robots.”
Quand on y réfléchit, l’ensemble du modèle fonctionne un peu comme un shakedown mafieux : les robots IA prendront ce qu’ils veulent à moins que vous ne soyez protégé.
«Ils devraient demander la permission, pas seulement récupérer des données», déclare Tomchuk.