Des scientifiques créent un algorithme pour attribuer une étiquette à chaque pixel du monde, sans supervision humaine

Des scientifiques créent un algorithme pour attribuer une étiquette à chaque pixel du monde, sans supervision humaine

Prédictions de segmentation sémantique non supervisées sur le défi de segmentation “CocoStuff 27”. STEGO n’utilise pas d’étiquettes pour découvrir et segmenter des objets cohérents. Contrairement aux algorithmes antérieurs, les prédictions de STEGO sont cohérentes, détaillées et n’omettent pas d’objets clés. Crédit : MIT CSAIL

L’étiquetage des données peut être une corvée. C’est la principale source de subsistance pour les modèles de vision par ordinateur ; sans cela, ils auraient beaucoup de difficulté à identifier les objets, les personnes et d’autres caractéristiques importantes de l’image. Pourtant, la production d’une heure seulement de données balisées et étiquetées peut prendre 800 heures de temps humain. Notre compréhension haute fidélité du monde se développe à mesure que les machines peuvent mieux percevoir et interagir avec notre environnement. Mais ils ont besoin de plus d’aide.

Des scientifiques du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT, de Microsoft et de l’Université Cornell ont tenté de résoudre ce problème qui afflige les modèles de vision en créant “STEGO”, un algorithme capable de découvrir et de segmenter conjointement des objets sans aucune étiquette humaine. au pixel.

STEGO apprend ce qu’on appelle la « segmentation sémantique » – pour désigner le processus d’attribution d’une étiquette à chaque pixel d’une image. La segmentation sémantique est une compétence importante pour les systèmes de vision par ordinateur d’aujourd’hui, car les images peuvent être encombrées d’objets. Encore plus difficile est que ces objets ne rentrent pas toujours dans des boîtes littérales ; les algorithmes ont tendance à mieux fonctionner pour des “choses” discrètes comme les personnes et les voitures, par opposition aux “choses” comme la végétation, le ciel et la purée de pommes de terre. Un système précédent pouvait simplement percevoir une scène nuancée d’un chien jouant dans le parc comme un simple chien, mais en attribuant une étiquette à chaque pixel de l’image, STEGO peut décomposer l’image en ses principaux ingrédients : un chien, un ciel, de l’herbe et son propriétaire.

Attribuer une étiquette à chaque pixel du monde est ambitieux, surtout sans aucune sorte de retour d’information de la part des humains. La majorité des algorithmes d’aujourd’hui tirent leurs connaissances de monticules de données étiquetées, dont la source peut prendre des heures humaines laborieuses. Imaginez simplement l’excitation d’étiqueter chaque pixel de 100 000 images. Pour découvrir ces objets sans l’aide d’un humain, STEGO recherche des objets similaires qui apparaissent dans un ensemble de données. Il associe ensuite ces objets similaires pour construire une vision cohérente du monde à travers toutes les images dont il apprend.

Voir le monde

Les machines capables de “voir” sont cruciales pour un large éventail de technologies nouvelles et émergentes telles que les voitures autonomes et la modélisation prédictive pour les diagnostics médicaux. Étant donné que STEGO peut apprendre sans étiquettes, il peut détecter des objets dans de nombreux domaines différents, même ceux que les humains ne comprennent pas encore complètement.

“Si vous regardez des scans oncologiques, la surface de planètes ou des images biologiques à haute résolution, il est difficile de savoir quels objets rechercher sans connaissances d’experts. Dans les domaines émergents, parfois même les experts humains ne savent pas ce qu’il faut les objets devraient être », explique Mark Hamilton, un Ph.D. étudiant en génie électrique et informatique au MIT, chercheur affilié au MIT CSAIL, ingénieur logiciel chez Microsoft et auteur principal d’un nouvel article sur STEGO. “Dans ces types de situations où vous souhaitez concevoir une méthode pour opérer aux limites de la science, vous ne pouvez pas compter sur les humains pour le comprendre avant les machines.”






STEGO a été testé sur une multitude de domaines visuels couvrant des images générales, des images de conduite et des photographies aériennes à haute altitude. Dans chaque domaine, STEGO a pu identifier et segmenter des objets pertinents étroitement alignés sur les jugements humains. La référence la plus diversifiée de STEGO était l’ensemble de données COCO-Stuff, qui est composé d’images diverses du monde entier, des scènes d’intérieur aux personnes faisant du sport en passant par les arbres et les vaches. Dans la plupart des cas, le système de pointe précédent pouvait capturer l’essentiel d’une scène en basse résolution, mais avait du mal à obtenir des détails fins : un humain était une goutte, une moto était capturée en tant que personne, et elle pouvait Je ne reconnais aucune oie. Sur les mêmes scènes, STEGO a doublé les performances des systèmes précédents et a découvert des concepts comme les animaux, les bâtiments, les personnes, les meubles et bien d’autres.

STEGO a non seulement doublé les performances des systèmes précédents sur le benchmark COCO-Stuff, mais a également fait des bonds en avant similaires dans d’autres domaines visuels. Lorsqu’il est appliqué aux ensembles de données de voitures sans conducteur, STEGO a réussi à segmenter les routes, les personnes et les panneaux de signalisation avec une résolution et une granularité bien supérieures à celles des systèmes précédents. Sur des images de l’espace, le système a décomposé chaque pied carré de la surface de la Terre en routes, végétation et bâtiments.

Connecter les pixels

STEGO, qui signifie “Self-supervised Transformer with Energy-based Graph Optimization”, s’appuie sur l’algorithme DINO, qui a découvert le monde grâce à 14 millions d’images de la base de données ImageNet. STEGO affine la colonne vertébrale DINO grâce à un processus d’apprentissage qui imite notre propre façon d’assembler des morceaux du monde pour donner du sens.

Par exemple, vous pourriez considérer deux images de chiens se promenant dans le parc. Même s’il s’agit de chiens différents, avec des propriétaires différents, dans des parcs différents, STEGO peut dire (sans les humains) comment les objets de chaque scène sont liés les uns aux autres. Les auteurs sondent même l’esprit de STEGO pour voir comment chaque petite chose brune et poilue dans les images est similaire, et de même avec d’autres objets partagés comme l’herbe et les gens. En connectant des objets à travers des images, STEGO construit une vue cohérente du mot.

“L’idée est que ces types d’algorithmes peuvent trouver des regroupements cohérents de manière largement automatisée afin que nous n’ayons pas à le faire nous-mêmes”, explique Hamilton. “Il a peut-être fallu des années pour comprendre des ensembles de données visuelles complexes comme l’imagerie biologique, mais si nous pouvons éviter de passer 1 000 heures à parcourir les données et à les étiqueter, nous pouvons trouver et découvrir de nouvelles informations que nous aurions pu manquer. Nous espérons que cela nous aidera à comprendre le mot visuel d’une manière plus empiriquement fondée.”

Un nouvel état de l'art pour la vision non supervisée

Avec l’algorithme STEGP, les chercheurs ont tenté de résoudre un énorme problème d’étiquetage qui afflige les modèles de vision. STEGO peut découvrir et segmenter conjointement des objets sans aucune étiquette humaine, jusqu’au pixel près. Crédit : MIT CSAIL.

Regarder vers l’avant

Malgré ses améliorations, STEGO fait encore face à certains défis. La première est que les étiquettes peuvent être arbitraires. Par exemple, les étiquettes de l’ensemble de données COCO-Stuff font la distinction entre les “aliments” comme les bananes et les ailes de poulet, et les “aliments” comme le gruau et les pâtes. STEGO n’y voit pas beaucoup de différence. Dans d’autres cas, STEGO a été troublé par des images étranges – comme celle d’une banane posée sur un récepteur téléphonique – où le récepteur était étiqueté “denrée alimentaire” au lieu de “matière première”.

Pour les travaux à venir, ils envisagent de donner à STEGO un peu plus de flexibilité que de simplement étiqueter les pixels dans un nombre fixe de classes, car les choses dans le monde réel peuvent parfois être plusieurs choses en même temps (comme “nourriture”, “plante” et “fruits”). Les auteurs espèrent que cela donnera à l’algorithme une marge d’incertitude, des compromis et une réflexion plus abstraite.

« En créant un outil général pour comprendre des ensembles de données potentiellement compliqués, nous espérons que ce type d’algorithme pourra automatiser le processus scientifique de découverte d’objets à partir d’images. Nous ne connaissons même pas la structure spécifique, comme dans certains domaines biologiques et astrophysiques. Nous espérons que les travaux futurs permettront une application à un très large éventail d’ensembles de données. Puisque vous n’avez pas besoin d’étiquettes humaines, nous pouvons maintenant commencer à appliquer les outils de ML plus largement. “, dit Hamilton.

“STEGO est simple, élégant et très efficace. Je considère la segmentation non supervisée comme une référence pour les progrès dans la compréhension des images, et un problème très difficile. La communauté des chercheurs a fait des progrès formidables dans la compréhension des images non supervisées avec l’adoption d’architectures de transformateurs.” déclare Andrea Vedaldi, professeur de vision par ordinateur et d’apprentissage automatique et co-responsable du groupe de géométrie visuelle au département des sciences de l’ingénieur de l’Université d’Oxford. “Cette recherche fournit peut-être la démonstration la plus directe et la plus efficace de ces progrès sur la segmentation non supervisée.”

Hamilton a rédigé l’article aux côtés du MIT CSAIL Ph.D. l’étudiant Zhoutong Zhang, le professeur adjoint Bharath Hariharan de l’Université Cornell, le professeur agrégé Noah Snavely de Cornell Tech et le professeur du MIT William T. Freeman. Ils présenteront l’article à la Conférence internationale 2022 sur les représentations de l’apprentissage (ICLR).


Une nouvelle méthode permet à la vision robotique d’identifier les objets occultés


Plus d’information:
Mark Hamilton et al, La segmentation sémantique non supervisée par Distilling Feature Correspondences (2022) est disponible au format PDF sur marhamilresearch4.blob.core.wi … blic/stego_paper.pdf

Fourni par le Massachusetts Institute of Technology

Citation: Des scientifiques créent un algorithme pour attribuer une étiquette à chaque pixel du monde, sans supervision humaine (21 avril 2022) récupéré le 21 avril 2022 sur https://techxplore.com/news/2022-04-scientists-algorithm-assign-pixel -monde.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.