Science citoyenne, supercalculateurs et IA

Science citoyenne, supercalculateurs et IA

Capture d’écran de l’application de science citoyenne « Dark Energy Explorers » qui permet aux non-experts de différencier les vraies galaxies des faux positifs, en formant un modèle d’apprentissage automatique pour aider à rechercher l’énergie noire. Crédit : Karl Gebhardt, UT Austin

Les scientifiques citoyens ont aidé les chercheurs à découvrir de nouveaux types de galaxies, à concevoir des médicaments pour lutter contre le COVID-19 et à cartographier le monde des oiseaux. Le terme décrit une gamme de façons dont le public peut contribuer de manière significative à la recherche scientifique et technique, ainsi qu’à la surveillance de l’environnement.

Comme les membres du Computing Community Consortium (CCC) l’ont récemment soutenu dans un article quadriennal intitulé « Imagine All the People : Citizen Science, Artificial Intelligence, and Computational Research », les non-scientifiques peuvent contribuer à faire avancer la science en « fournissant ou en analysant des données à des niveaux spatiaux et des résolutions ou des échelles temporelles et des vitesses qui seraient autrement impossibles compte tenu du personnel et des ressources limités. »

Récemment, les efforts des citoyens scientifiques ont trouvé un nouvel objectif : aider les chercheurs à développer des modèles d’apprentissage automatique, en utilisant des données et des algorithmes étiquetés, pour entraîner un ordinateur à résoudre une tâche spécifique.

Cette approche a été lancée par le projet d’astronomie participative Galaxy Zoo, qui a commencé à mobiliser des scientifiques citoyens en 2007. En 2019, les chercheurs ont utilisé des données étiquetées pour former un modèle de réseau neuronal afin de classer des centaines de millions de galaxies non étiquetées.

« Utiliser les millions de classifications effectuées par le public dans le cadre du projet Galaxy Zoo pour former un réseau de neurones est une utilisation inspirante du programme de science citoyenne », a déclaré Elise Jennings, informaticienne à Argonne Leadership Computing Facility (ALCF) qui a contribué à l’effort.

La TACC soutient un certain nombre de projets, de l’identification des fausses informations à l’identification des structures en danger lors de catastrophes naturelles, qui utilisent la science citoyenne pour former des modèles d’IA et permettre de nouveaux succès scientifiques.

De l’amadou pour les galaxies

L’expérience sur l’énergie noire du télescope Hobby-Eberly, ou HETDEX, est la première grande expérience à rechercher l’évolution de l’énergie noire. Basé à l’observatoire McDonald dans l’ouest du Texas, il examine plus profondément le passé que jamais pour déterminer avec une grande précision à quelle vitesse l’univers accélère.

L’expérience repose sur la capacité d’identifier l’emplacement, la distance et le décalage vers le rouge de dizaines de millions de galaxies. Mais Karl Gebhardt, professeur d’astronomie à l’Université du Texas à Austin (UT Austin) et scientifique principal du projet, a été confronté à un problème. Les algorithmes de calcul avaient du mal à séparer les galaxies cibles réelles des faux positifs.

Curieusement, les humains peuvent facilement détecter la différence. Ainsi, en collaboration avec les étudiants diplômés Lindsay House et Dustin Davis, et la scientifique des données Erin Mentuch Cooper, ils ont créé une application de science citoyenne appelée « Dark Energy Explorers » pour former un algorithme d’apprentissage automatique afin de faciliter le processus.

Les personnes ayant une formation minimale peuvent regarder les raies spectrales et les images de sources ponctuelles et balayer vers la gauche ou la droite, selon qu’elles pensent qu’il s’agit d’une vraie galaxie ou de quelque chose d’autre comme un artefact de l’algorithme ou un grain de poussière sur le capteur. L’application a été appelée en plaisantant « Tinder for Galaxies », dit Gebhardt. À ce jour, les citoyens scientifiques ont effectué près de 2 millions de classifications et plus sont nécessaires.

Une fois qu’un nombre suffisant de ces déterminations aura été effectué, Gebhardt utilisera le superordinateur Maverick centré sur l’apprentissage automatique de TACC pour former le modèle de détection de galaxie. L’analyse cartographiera plus d’un million de galaxies cibles et déterminera le taux d’accélération cosmique.

Des étiquettes pour sauver des vies

Un autre excellent exemple de science citoyenne est le projet « Building Detective for Disaster Preparedness » développé par le SimCenter de l’UC Berkeley. Il invite le public à identifier les caractéristiques architecturales spécifiques des bâtiments, comme les toits, les fenêtres et les cheminées. Ces étiquettes sont ensuite utilisées pour former des modules d’IA supplémentaires pour les simulations d’événements naturels des chercheurs à l’échelle de la ville.

Le projet, hébergé sur le portail web de science citoyenne Zooniverse, a été un succès sans réserve. « Nous avons lancé le projet en mars et en quelques semaines, nous avions un millier de volontaires et 20 000 images annotées », a déclaré Charles Wang, professeur adjoint au College of Design, Construction and Planning de l’Université de Floride et développeur principal d’un suite d’outils d’IA appelée BRAILS—Building Recognition using AI at Large-Scale.

Science citoyenne, supercalculateurs et IA

Le projet « Building Detective For Disaster Preparedness » de Zooniverse invite les scientifiques citoyens à étiqueter les données qui aident à former l’outil BRAILS. Crédit : SimCenter, UC Berkeley

BRAILS applique un apprentissage en profondeur (plusieurs couches d’algorithmes qui extraient progressivement des caractéristiques de niveau supérieur à partir de l’entrée brute) pour classer automatiquement les caractéristiques dans des millions de structures d’une ville. Les architectes, les ingénieurs et les professionnels de la planification peuvent utiliser ces classifications pour évaluer les risques pour les bâtiments et les infrastructures, et ils peuvent même simuler les conséquences des risques naturels.

« Pour relever avec succès les défis scientifiques et sociétaux urgents, nous avons besoin des capacités complémentaires des humains et des machines », ont écrit les auteurs du CCC. « Le gouvernement fédéral pourrait accélérer ses priorités sur plusieurs fronts grâce à une intégration judicieuse de la science citoyenne et du crowdsourcing avec l’intelligence artificielle (IA), l’Internet des objets (IoT) et les stratégies de cloud.

Biais et données erronées

Les jeux de données générés par des scientifiques citoyens ou d’autres amateurs (rémunérés ou bénévoles) posent bien sûr des défis. Matt Lease, professeur agrégé à la School of Information de l’UT Austin, emploie une main-d’œuvre participative pour la formation en IA. Il étudie également la dynamique de ces interactions homme-machine.

Lease a récemment payé des non-professionnels pour indiquer si un tweet devait ou non être considéré comme un discours haineux, et a utilisé ces données pour former un modèle de classification des discours haineux. Son équipe a également collecté des données auprès des travailleurs de la foule pour savoir si les articles étaient de fausses nouvelles, qu’ils ont utilisées pour former un modèle de prédiction.

Lease a déclaré qu’il pensait que les données étaient potentiellement l’aspect le plus sous-évalué dans le développement de modèles d’IA précis (il explique cette perspective dans un récent article d’arxiv qui paraîtra dans le numéro de mars/avril de Interactions ACM.)

« La recherche pour améliorer les modèles est souvent prioritaire sur la recherche pour améliorer les environnements de données dans lesquels les modèles fonctionnent, même si les inadéquations entre les ensembles de données et le monde réel peuvent conduire à des échecs de modélisation importants dans la pratique », a-t-il déclaré. « Les améliorations de la précision des prédictions grâce à de meilleures données peuvent dépasser les améliorations apportées par de meilleurs modèles. »

Il a souligné une étude récente qui a montré que les dix ensembles de données d’IA les plus cités sont criblés d’erreurs d’étiquette. « La qualité des données est cruciale pour garantir que les systèmes d’IA peuvent représenter et prédire avec précision le phénomène qu’ils prétendent mesurer », a-t-il déclaré.

Cependant, parfois, les biais eux-mêmes peuvent être glanés en étudiant les ensembles de données et peuvent suggérer de meilleures façons de collecter des données. « Il y a eu des découvertes selon lesquelles les modèles de détection de discours haineux peuvent être biaisés contre le discours afro-américain », a déclaré Lease. « Tout comme les entreprises devraient embaucher des travailleurs divers pour créer des produits intégrant des perspectives diverses, les données d’IA devraient également être étiquetées par des travailleurs divers afin que les modèles d’IA tirés des données reflètent de la même manière des perspectives diverses. »

Sonder les limites de la science citoyenne

Ben Goldstein, un Ph.D. candidat à l’UC Berkeley, rédige une thèse motivée par la question : quels types d’informations pouvons-nous tirer de la richesse des données disponibles en science citoyenne sur la biodiversité ?

Goldstein et ses collaborateurs Sara Stoudt et Perry de Valpine comparent les données iNaturalist aux données eBird pour estimer quelles espèces sont sur- ou sous-déclarées par rapport à une référence.

Goldstein a reçu une allocation de l’Extreme Science and Engineering Discovery Environment, financé par la NSF, pour utiliser Jetstream, un nuage national de science et d’ingénierie co-localisé à la TACC et à l’Université de l’Indiana, pour l’étude.

« Nous soutenons que cet ‘indice de surdéclaration’ capture la préférence humaine », a-t-il déclaré. « Nous l’utilisons pour identifier les espèces et les traits – taille, couleur, rareté – qui sont perçus comme charismatiques. » Ils ont publié les résultats de leur étude dans Biorxiv.

La science citoyenne est aussi vieille que la science elle-même, et pourtant elle a plus de trucs à nous apprendre, si nous pouvons apprendre à l’exploiter correctement. En utilisant des outils informatiques de pointe, la science citoyenne est sur le point d’ajouter encore plus de valeur à l’entreprise scientifique traditionnelle.


L’IA laissera-t-elle les astronomes humains dans la poussière d’étoiles ?


Fourni par le Texas Advanced Computing Center

Citation: Science citoyenne, supercalculateurs et IA (2022, 7 janvier) récupéré le 7 janvier 2022 sur https://techxplore.com/news/2022-01-citizen-science-supercomputers-ai.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.