L’empreinte carbone de la science computationnelle

Alors que l’urgence climatique et la crise du coût de la vie concentrent nos efforts sur la manière de réduire l’énergie, un groupe de scientifiques a mis en évidence le coût environnemental caché derrière certaines de nos avancées majeures.

Le calcul haute performance a transformé le fonctionnement de la recherche et notre capacité à faire des découvertes auparavant impensables. Nous sommes en mesure de modéliser notre climat futur avec une précision sans précédent. Nous sommes capables de prédire à quoi ressemble une protéine à partir de son code génétique. Nous savons même à quoi ressemble un trou noir à 55 millions d’années-lumière.

Mais si peu de gens s’opposeraient à de tels progrès, cela a un coût.

En 15 ans d’écriture sur la recherche médicale, je me suis retrouvé à écrire d’innombrables articles sur des études d’association à l’échelle du génome, où les chercheurs comparent l’ADN de potentiellement des centaines de milliers de personnes – des patients et des «témoins» sains – pour rechercher des variantes génétiques qui augmentent notre risque de développer une maladie particulière. Jamais je ne me suis retrouvé à considérer l’impact environnemental de telles études.

Il s’avère que cela peut être assez stupéfiant.

Au début de cette année, une équipe de Cambridge, en collaboration avec des collègues du Baker Institute de Melbourne, en Australie, a publié des recherches montrant qu’une étude d’association pangénomique (GWAS) sur les données de chalutage de 500 000 participants enregistrés dans une base de données de biobanque créerait une empreinte carbone de 17,3 kg de CO2e (équivalent dioxyde de carbone) pour chaque trait génétique étudié.

Mais en fait, les chercheurs examineraient généralement des milliers de traits. La même exécution GWAS pour 1 000 traits générerait 17,3 tonnes métriques de CO2e. Cela équivaut à 346 vols entre Paris et Londres. (Les chercheurs soulignent que la mise à niveau du logiciel utilisé vers la dernière version réduirait cela de trois quarts.)

Début 2020, Loïc Lannelongue était en plein doctorat. en science des données sur la santé au Département de la santé publique et des soins primaires de Cambridge. Il était un biologiste informatique, utilisant l’apprentissage automatique pour prédire comment les protéines interagissent dans le corps humain. L’un de ses collaborateurs était Jason Grealey, un universitaire basé à l’Université de Melbourne, en Australie. Lannelongue regardait les nouvelles – et entendait de première main Grealey – parler des feux de brousse qui déchiraient l’Australie. Cela l’a fait réfléchir à l’urgence climatique et au rôle que nous jouons tous.

Quelques mois plus tôt, Lannelongue avait pris connaissance d’une étude qui assimile la formation à l’intelligence artificielle (IA) à l’empreinte carbone de cinq voitures au cours de leur vie. Il a commencé à se demander quel était l’impact de son propre travail et, avec Grealey, a décidé de le résoudre, s’attendant à trouver une calculatrice en ligne sur laquelle ils pourraient simplement brancher leurs chiffres.

“Nous avons commencé à penser que ce serait un projet de deux semaines, une belle pause dans notre recherche doctorale”, explique Lannelongue, “juste pour déterminer quelle était l’empreinte carbone de ce que nous faisions pour obtenir un chiffre et probablement tweeter à ce sujet. . Sauf qu’il n’y avait rien là-bas. Nous avons réalisé qu’il y avait un écart énorme, que les informaticiens ne pensaient pas encore vraiment à leur empreinte carbone.”

L'empreinte carbone de la science computationnelle

Crédit : Université de Cambridge

Depuis lors, avec le soutien de son superviseur, le Dr Michael Inouye, Lannelongue consacre la moitié de son temps à travailler sur ce projet, menant au développement de Green Algorithms, un simple calculateur en ligne qui permet aux chercheurs de calculer l’empreinte carbone de leurs travaux informatiques.

Ce n’est pas la première fois que le milieu de la recherche braque les projecteurs sur ses propres pratiques. Certains membres de la communauté ont déjà posé des questions sur l’impact du vol à travers le monde pour présenter leurs découvertes lors de conférences scientifiques, par exemple.

D’autres ont soulevé la question des déchets plastiques et chimiques et des besoins en énergie des soi-disant «laboratoires humides», c’est-à-dire des laboratoires où se déroulent des travaux expérimentaux. Les laboratoires informatiques ont également un impact significatif : les équipements doivent être mis à jour et remplacés au moins toutes les quelques années, tandis que même le stockage des données lui-même nécessite de l’énergie.

Et puis il y a le travail informatique lui-même, dont la quantité est phénoménale de nos jours. Pour vous donner une idée de son ampleur, en 2020, le XSEDE (Extreme Science and Engineering Discovery Environment – un système virtuel permettant aux scientifiques de partager des ressources informatiques, des données et de l’expertise) basé aux États-Unis, désormais terminé, a vu à lui seul les chercheurs utiliser 9 milliards heures de calcul, soit 24 millions d’heures par jour.

“Pour des calculs puissants, soit vous avez besoin de beaucoup de cœurs – vous branchez beaucoup d’ordinateurs et ils font tous le travail pour vous – soit vous avez besoin de beaucoup de mémoire. Dans tous les cas, cela prend de l’énergie.”

Une partie du problème, dit-il, est que l’informatique peut sembler gratuite. Les groupes de recherche ont souvent un accès gratuit aux installations de calcul haute performance (HPC) de leur établissement.

“Lorsque vous arrivez pour la première fois en tant qu’étudiant au doctorat, vous êtes comme un enfant dans un magasin de bonbons – vous avez essentiellement une puissance de calcul illimitée à portée de main. C’est génial et cela permet d’excellentes recherches, donc cela ne devrait certainement pas s’arrêter, mais le problème est que vous pensez juste que c’est gratuit.”

Il donne l’exemple d’un processus d’apprentissage automatique appelé réglage d’hyperparamètres, qui consiste à tester différentes configurations de votre modèle pour déterminer celle qui fonctionne le mieux. “Vous ne savez jamais quand vous avez atteint le maximum. Ça ne cesse de s’améliorer jusqu’à ce qu’à un moment donné, vous disiez:” Eh bien, je pense que j’ai fait aussi bien que possible “.”

“Mais disons que vous êtes à la fin de la journée et que vous pensez:” Qui sait, peut-être que je pourrais le faire fonctionner pendant la nuit. Peut-être que j’obtiendrai ce demi-pourcent supplémentaire de précision. Cela ne coûte rien et non on utilise les ordinateurs”. Mais en fait, il y a un coût, il y a un coût du carbone.”

Ce qu’il veut, ce n’est pas limiter la recherche, mais réduire le gaspillage informatique, “pour amener les gens à penser : ‘Est-ce que j’ai vraiment besoin de faire ça ? Probablement pas.'”

Lannelongue avoue que lorsqu’ils ont lancé Green Algorithms pour la première fois, il était sceptique quant à savoir si les gens allaient l’utiliser. Au cours des premiers mois, il n’a été utilisé que quelques dizaines de fois par mois, principalement par des utilisateurs de son propre laboratoire, pense-t-il. Mais depuis lors, il a décollé et ils reçoivent plus de 300 utilisateurs par semaine du monde entier.

Même ainsi, il reconnaît que l’outil peut être “encombrant” pour certaines personnes, car il les oblige à saisir manuellement leurs données. C’est pourquoi ils travaillent sur Green Algorithms 4HPC (qui est déjà disponible en version bêta sur GitHub), qui utilise les journaux de données des centres HPC pour calculer automatiquement l’empreinte carbone d’un projet.

“De nombreux départements s’y intéressent, car c’est un moyen simple pour les scientifiques de le mettre en œuvre. Un département peut surveiller l’intégralité de l’empreinte carbone du travail qui y est effectué. Ce ne sont pas seulement des scientifiques individuels, mais des groupes entiers qui peuvent commencer à dire : “OK. , surveillons notre empreinte carbone et voyons quel est notre impact mois après mois”.

Il aimerait voir plus de transparence de la part des groupes de recherche, et c’est pourquoi son équipe calcule désormais systématiquement leur empreinte carbone à l’aide de l’outil Green Algorithms et l’inclut à la fin de leurs documents de recherche.

Il est facile de supposer qu’à mesure que les algorithmes et les ordinateurs qui les alimentent deviennent de plus en plus efficaces, l’empreinte carbone de la science informatique diminuera, comme ce fut le cas dans l’exemple de la biobanque. Mais ce n’est pas nécessairement le cas, en raison de “l’effet rebond”.

“Si vous rendez un outil dix fois plus efficace, les scientifiques l’utiliseront 100 fois plus”, explique Lannelongue.

“Je veux dire, c’est génial, c’est comme ça que l’innovation fonctionne. Mais c’est pourquoi nous devons être en mesure de suivre plus précisément que ce que nous faisons se traduit par une réduction de la consommation d’énergie. Sinon, nous pourrions faire tout le travail acharné et nous nous rendrions compte que les factures d’énergie sont aussi élevés qu’ils ne l’ont jamais été.”

En fin de compte, pense-t-il, il devra y avoir un élément de responsabilité personnelle lorsqu’il s’agira de réduire l’empreinte carbone de la science informatique. “Les gens pensent “Je n’ai pas besoin de changer ma façon d’agir, tous les centres de données seront bientôt alimentés par l’éolien et le solaire.” J’adorerais que ce soit vrai, c’est juste que nous savons que ce n’est pas le cas. Nous devons agir maintenant, et puis si dans le futur, nous arrivons à un point où cela n’a plus d’importance, alors génial, nous pourrons reprendre nos vies sans culpabilité.”

Et son travail a-t-il changé sa façon de travailler ?

“Malheureusement, oui”, rit-il. Il était ce gamin proverbial dans une histoire de bonbons, exécutant plusieurs analyses juste parce qu’il le pouvait. Maintenant, bien qu’il poursuive ses recherches et utilise toujours l’apprentissage automatique, il est plus attentif aux ressources qu’il utilise. Il s’arrêtera et se demandera s’il a vraiment besoin de cette mémoire supplémentaire ou s’il doit exécuter son analyse une fois de plus pour être du bon côté. Au lieu de cela, il prendra le temps de déterminer exactement ce dont il a besoin avant de commencer le travail.

“Je sais que c’est pour le mieux”, dit-il, avant d’ajouter avec nostalgie, “mais j’aimais l’innocence de ne pas savoir. C’était un bon moment.”

Plus d’information:
Algorithmes verts : www.green-algorithms.org/

Fourni par l’Université de Cambridge

Citation: Big data’s hidden cost: The carbon footprint of computational science (2023, 20 janvier) récupéré le 20 janvier 2023 sur https://techxplore.com/news/2023-01-big-hidden-carbon-footprint-science.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.

Laisser un commentaire