Révolutionner l’accès aux données grâce à un nouvel outil logiciel : Tiled

Révolutionner l'accès aux données via Tiled

Les scientifiques peuvent utiliser Tiled pour accéder de manière transparente aux magasins de données dans divers formats tels que les fichiers, les bases de données ou d’autres services de données. Tiled permet à ses utilisateurs de voir, de découper et d’étudier leurs données à l’aide de l’outil le plus pratique pour eux. Crédit : Laboratoire national de Brookhaven

Chaque fois que les scientifiques étudient un nouveau matériau pour les futures batteries ou enquêtent sur des maladies pour développer de nouveaux médicaments, ils doivent parcourir un océan de données. Aujourd’hui, tout un écosystème d’outils scientifiques crée une variété sauvage de données à explorer. Cette exploration sera désormais beaucoup plus facile grâce aux scientifiques de la National Synchrotron Light Source II (NSLS-II), située au Brookhaven National Laboratory du département américain de l’Énergie (DOE). Leur outil logiciel fraîchement déployé, appelé Tiled, permet aux chercheurs de voir, de découper et d’étudier leurs données plus facilement que jamais. Ce nouvel outil d’accès aux données facilite la recherche et l’analyse de la bonne donnée par rapport aux méthodes précédentes, ouvrant la voie à la prochaine percée scientifique.

En tant que l’une des 28 installations d’utilisateurs du DOE Office of Science à travers le pays, NSLS-II accueille chaque année près de 2 000 scientifiques pour utiliser sa lumière ultra-brillante, s’attaquant aux plus grands défis des matériaux et des sciences de la vie. Ces chercheurs invités viennent du monde entier pour collaborer avec des experts et utiliser les outils de recherche uniques du NSLS-II. Ils zappent leurs échantillons, allant des roches anciennes aux nouveaux matériaux quantiques, avec des rayons X intenses et captent les signaux sortants à l’aide de détecteurs avancés. À leur tour, ces détecteurs crachent des flux de données, attendant d’être analysés par les scientifiques.

« Travailler avec des données est un élément central de toute recherche, et pourtant un défi en soi. Il existe une multitude de formats, de tailles et de formes variables, et chaque élément n’est pas utile pour les chercheurs. C’est pourquoi développer un outil logiciel qui rend l’accès, la visualisation et le tri des données si importants », a déclaré Dan Allan, informaticien à NSLS-II.

Tiled est un service d’accès aux données pour les portails orientés données et les outils de science des données. Cela signifie que Tiled repose sur des bases de données et des systèmes de fichiers afin que les scientifiques puissent accéder à leurs données via, par exemple, un navigateur Web ou un logiciel d’analyse de données. Alors que le programme Data Science and Systems Integration (DSSI) a été déployé dans toutes les stations expérimentales du NSLS-II, le service, tout comme son cousin le projet Bluesky (un logiciel d’acquisition de données également développé au NSLS-II), peut être utilisé dans n’importe quel laboratoire de recherche dans le monde entier. Cela est possible car Tiled est publié sous une licence de logiciel open source populaire.

« Même si nous avons développé Tiled dans le langage de programmation Python et, par conséquent, qu’il s’intègre naturellement aux bibliothèques de science des données basées sur Python, rien dans le service n’est spécifique à Python », a déclaré Stuart Campbell, scientifique en chef des données chez NSLS-II. « Le client utilise une API, ou une interface de programmation d’applications, pour connecter les applications utilisateur au serveur. Une API est essentiellement un ensemble de règles ou un contrat qui définit la manière dont différents logiciels communiquent entre eux. L’avantage de cette approche est qu’une fois ces règles et interfaces définies, cela fournit aux utilisateurs et aux développeurs la structure au sein de laquelle ils peuvent créer d’excellents outils et étendre les fonctionnalités au-delà de ce que nous avions imaginé à l’origine. »

La flexibilité de Tiled permet au service de s’intégrer de manière transparente à n’importe quelle base de données ou collection de fichiers afin qu’il puisse être utilisé sur un large éventail d’expériences avec des techniques et des données très différentes.

Répondez à vos besoins en données

« Dans le passé, j’aidais mon conseiller de doctorat à télécharger des données à partir d’installations telles que NSLS-II. C’était fastidieux car nous devions télécharger toutes nos données en même temps avant de pouvoir trier les parties utiles. De plus, les données étaient au format du détecteur, quelle que soit la façon dont nous voulions les analyser. Cela signifiait qu’après un long téléchargement, nous devions convertir les données avant même de pouvoir les regarder », a déclaré Allan.

Campbell a ajouté : « Si Dan avait utilisé Tiled à l’époque, il aurait pu facilement parcourir les données sur un navigateur Web ou une application d’analyse de données, trier les bonnes parties et partager uniquement celles qui l’intéressaient avec son conseiller via un seul lien. »

Révolutionner l'accès aux données via Tiled

Cet aperçu du client Web Tiled montre comment différentes images de détecteur provenant de différentes mesures peuvent être affichées en même temps. L’aperçu montre le portail en mode sombre. Crédit : Laboratoire national de Brookhaven

En utilisant Tiled, les scientifiques peuvent prévisualiser leurs données et accéder uniquement aux parties qu’ils souhaitent sans un téléchargement volumineux. Ils peuvent également choisir le format de leurs données téléchargées ou les alimenter directement dans un logiciel d’analyse. Dans le même temps, Tiled offre un contrôle d’accès basé sur les normes de sécurité Web afin que toutes les données restent en sécurité. Étant donné que la configuration d’un nouveau compte peut être un obstacle, Tiled peut être configuré pour autoriser la connexion à des services tiers, tels que Google et ORCID.

« Les capacités à distance sont plus importantes que jamais », a déclaré Dylan McReynolds, ingénieur en systèmes informatiques à Advanced Light Source, une installation utilisateur du DOE Office of Science située au Lawrence Berkeley National Laboratory, qui a collaboré à Tiled. « Le fait de s’appuyer sur des protocoles Web ouverts et standard fait progresser nos capacités scientifiques en facilitant le déplacement des données là où elles sont nécessaires. »

Le nouveau logiciel permet même une forme de « mode avion » dans lequel les données sont stockées sur l’ordinateur portable d’un utilisateur afin que les chercheurs puissent continuer à travailler dessus hors ligne ou avec une connexion Internet lente.

« Notre objectif avec Tiled est de simplifier l’accès aux données pour tout le monde. Si vous n’avez pas à vous soucier de la conversion des formats de données dans d’autres formats ou de la sélection d’informations dans les noms de fichiers, vous pouvez penser aux parties les plus importantes, comme trouver la réponse à vos questions de recherche », a déclaré Thomas Caswell, informaticien à NSLS-II.

Simplifier et standardiser l’accès aux données est essentiel à la fois pour optimiser les flux de travail existants et pour permettre les futurs flux de travail centrés sur l’apprentissage automatique, l’IA et d’autres analyses avancées. Ces technologies émergentes reposent de manière critique sur un accès sans friction aux données, quelle que soit la manière dont elles ont été collectées ou stockées, pour libérer leur plein potentiel.

Mosaïque : s’intègre dans n’importe quel casse-tête de recherche

Les premiers utilisateurs de Tiled ont déjà construit des outils passionnants et sophistiqués pour alimenter leurs recherches.

« Tiled offre une toute nouvelle façon d’accéder aux données qui simplifiera et rationalisera les pipelines de traitement et d’analyse pour les expériences. Fini les téléchargements maladroits ou la perte de temps à importer des données à partir d’une douzaine de formats pour analyser une expérience ! » a déclaré Denis Leschev, physicien adjoint au NSLS-II, qui a testé Tiled. « De plus, Tiled permettra un moyen plus simple de partager les données, ouvrant la voie à une science plus ouverte et transparente à l’avenir. »

Le nouveau logiciel n’est pas uniquement disponible pour les utilisateurs de NSLS-II : l’équipe a conçu le logiciel pour qu’il s’adapte à n’importe quelle source de données. Il peut être déployé à grande échelle pour des installations telles que NSLS-II, mais il peut tout aussi bien fonctionner sur l’ordinateur portable d’un étudiant ou sur le poste de travail d’un groupe de recherche. D’autres laboratoires et institutions ont déjà la possibilité d’adapter ce logiciel à leurs propres besoins.

Révolutionner l'accès aux données via Tiled

Ce Jupyter Notebook, une application Web d’analyse de données populaire, utilise Tiled pour accéder aux données à des fins de calcul, de traitement et de visualisation. Crédit : Laboratoire national de Brookhaven

Peter Beaucage, membre du personnel scientifique du National Institute of Standards and Technology (NIST), qui est l’un des premiers utilisateurs de Tiled, l’a intégré à son propre programme d’analyse de données scientifiques, PyHyperScattering. Il laisse Tiled gérer le transfert de données et les détails de sécurité, en s’appuyant sur ceux-ci pour fournir à ses utilisateurs l’interface spécifique dont ils ont besoin pour leur travail.

« Le volume de données synchrotron nécessaire pour une analyse typique a considérablement augmenté au cours de la dernière décennie, dépassant rapidement les capacités des plates-formes de transfert de données existantes. Les solutions en mosaïque et similaires promettent de donner aux utilisateurs un accès transparent aux bonnes données au bon moment et d’accélérer découverte basée sur la science des rayons X », a déclaré Beaucage.

Au-delà de Beaucage, d’autres utilisateurs de Tiled ont également construit des pipelines d’analyse de données, déplaçant les données des expériences en direct au NSLS-II vers des clusters distants et vers un logiciel personnalisé pour visualiser et interroger les données. Chaque étape a été prise en charge par Tiled.

« Dans l’ensemble, nous sommes incroyablement fiers de déployer Tiled. C’est l’aboutissement de notre travail au cours des six dernières années. Il combine toutes les fonctionnalités que nous voulons dans les outils d’accès aux données modernes, et il va de pair avec Bluesky », a déclaré Campbell .

La route devant

Tiled permettra à tout un jardin d’outils utiles de se développer pour un large éventail de techniques. L’équipe a mis les yeux sur la création de diverses applications Web axées sur des techniques de recherche spécifiques. L’équipe souhaite également concevoir une interface de données publiques afin que tout le monde puisse explorer de vraies données accessibles au public à l’aide de Tiled.

« Les subventions nécessitent souvent un accès ouvert aux données, mais il est difficile pour les chercheurs d’y parvenir d’une manière pratique et immédiatement utile. Tiled ouvre une voie à la porte des chercheurs, en travaillant avec les outils qu’ils utilisent déjà pour les aider à trouver des données, accessible, interopérable et réutilisable, conformément aux principes directeurs FAIR pour la gestion et la gestion des données scientifiques », a ajouté Allan.

En séparant la manière dont les données sont stockées de la manière dont elles sont accessibles, Tiled ouvre la voie à l’utilisation de technologies de stockage et de recherche de pointe à l’intérieur, tout en présentant aux chercheurs des normes éprouvées et établies. Il les rencontre là où ils se trouvent et leur laisse le soin de formater et de travailler avec leurs données.

« Tiled vise à suivre les autres efforts du logiciel NSLS-II pour développer une communauté amicale de contributeurs et d’utilisateurs. Nous recherchons activement une collaboration avec des installations et des chercheurs du monde entier – que ce soit dans l’industrie, le milieu universitaire ou le gouvernement – qui ont des défis similaires, et nous sommes ravis de voir ce que nous pouvons construire ensemble sur cette plate-forme », a déclaré Allan.


Après que les IA aient maîtrisé le Go et le Super Mario, les scientifiques leur ont appris à « jouer » aux expériences au NSLS-II


Plus d’information:
Daniel Allan et al, Bluesky’s Ahead: A Multi-Facility Collaboration for an a la carte Software Project for Data Acquisition and Management, Actualités du rayonnement synchrotron (2019). DOI : 10.1080/08940886.2019.1608121

Documentation en mosaïque : blueskyproject.io/tiled

Démo en mosaïque (pour les programmeurs) : tiled-demo.blueskyproject.io/

Page d’accueil du projet Open Source Bluesky : blueskyproject.io/

Fourni par le Laboratoire national de Brookhaven

Citation: Révolutionner l’accès aux données grâce à un nouvel outil logiciel : Tiled (2021, 24 novembre) récupéré le 24 novembre 2021 à partir de https://techxplore.com/news/2021-11-revolutionizing-access-software-tool-tiled.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.