Les scientifiques développent une nouvelle approche informatique pour réduire le bruit dans les données de rayons X

Les scientifiques développent une nouvelle approche informatique pour réduire le bruit dans les données de rayons X

Une représentation graphique du modèle d’apprentissage automatique, montrant la série d’images XPCS (en haut à gauche), qui sont introduites dans le modèle d’apprentissage automatique (en bas), produisant les données débruitées (en haut à droite) qui sont utilisées pour une analyse plus approfondie. Crédit : Laboratoire national de Brookhaven

Des scientifiques de la National Synchrotron Light Source II (NSLS-II) et de la Computational Science Initiative (CSI) du Laboratoire national de Brookhaven du Département américain de l’énergie (DOE) ont aidé à résoudre un problème courant dans les expériences de rayons X synchrotron : réduire le bruit, ou des informations dénuées de sens, présentes dans les données. Leur travail vise à améliorer l’efficacité et la précision des études par rayons X au NSLS-II, dans le but d’améliorer l’expérience de recherche globale des scientifiques dans l’installation.

NSLS-II, une installation utilisateur du DOE Office of Science, produit des faisceaux de rayons X pour l’étude d’une grande variété d’échantillons, des nouveaux matériaux de batterie potentiels aux plantes qui peuvent assainir les sols contaminés. Des chercheurs de tout le pays et du monde entier viennent au NSLS-II pour étudier leurs échantillons à l’aide de rayons X, collectant d’énormes quantités de données au cours du processus. L’une des nombreuses techniques de rayons X disponibles au NSLS-II pour les chercheurs invités est la spectroscopie de corrélation de photons X (XPCS). XPCS est généralement utilisé pour étudier les comportements des matériaux qui dépendent du temps et se produisent à l’échelle nanométrique et inférieure, tels que la dynamique entre et au sein des caractéristiques structurelles, comme les grains minuscules. XPCS a été utilisé, par exemple, pour étudier le magnétisme dans les matériaux informatiques avancés et les changements structurels dans les polymères (plastiques).

Bien que XPCS soit une technique puissante de collecte d’informations, la qualité des données collectées et la gamme de matériaux pouvant être étudiés sont limitées par le “flux” du faisceau de rayons X XPCS. Le flux est une mesure du nombre de rayons X traversant une zone donnée à un moment donné, et un flux élevé peut entraîner trop de “bruit” dans les données, masquant le signal recherché par les scientifiques. Les efforts pour réduire ce bruit ont été couronnés de succès pour certaines configurations expérimentales. Mais pour certains types d’expériences XPCS, l’obtention d’un rapport signal/bruit plus raisonnable est un défi de taille.

Dans XPCS, les rayons X se dispersent sur l’échantillon et produisent un motif de chatoiement. Les chercheurs prennent de nombreuses images séquentielles du motif et les analysent pour trouver des corrélations entre leurs intensités. Ces corrélations fournissent des informations sur les processus au sein de l’échantillon qui dépendent du temps, comme la façon dont sa structure pourrait se détendre ou se réorganiser. Mais lorsque les images sont bruitées, ces informations sont plus difficiles à extraire.

Pour ce projet, l’équipe a entrepris de créer de nouvelles méthodes et modèles utilisant l’apprentissage automatique (ML), un type d’intelligence artificielle où les programmes et systèmes informatiques peuvent apprendre par eux-mêmes une solution à un problème et s’adapter en fonction des données qu’ils reçoivent. Le projet implique le personnel de deux lignes de lumière NSLS-II, la diffusion cohérente des rayons X (CSX) et la diffusion cohérente des rayons X durs (CHX), ainsi que le programme Data Science and Systems Integration (DSSI) du NSLS-II et le groupe CSI de Brookhaven.

“Bien que le développement d’instruments et l’optimisation des protocoles expérimentaux soient cruciaux dans la réduction du bruit, il existe des situations où les méthodes de calcul peuvent encore faire progresser les améliorations”, a déclaré Tatiana Konstantinova, chercheuse en informatique au NSLS-II. Elle est la première auteure de l’article, paru dans l’édition en ligne du 20 juillet 2021 de Nature’s Rapports scientifiques.

Konstantinova et ses collègues veulent créer des modèles qui peuvent être appliqués à une variété d’expériences XPCS. Ils souhaitent également que les modèles soient utilisables à différentes étapes d’un projet, de la collecte de données à l’analyse complète des résultats finaux. Ce projet est un exemple du type de résolution de problèmes innovante qui peut résulter d’un état d’esprit ouvert et collaboratif.

“Le temps de faisceau dans des installations comme NSLS-II est une ressource finie. Par conséquent, mis à part les progrès du matériel expérimental, la seule façon d’améliorer la productivité scientifique dans son ensemble est de travailler sur des solutions généralisables et évolutives pour extraire des données significatives, ainsi que pour aider les utilisateurs. être plus confiant dans les résultats », a déclaré Andi Barbour, scientifique de la ligne de lumière NSLS-II, chercheur principal du projet. “Nous voulons que les utilisateurs puissent passer plus de temps à réfléchir à la science.”

Dans l’analyse XPCS, les données sont représentées mathématiquement par ce que l’on appelle une fonction de corrélation intensité-intensité à deux temps. Cette fonction peut généraliser tout comportement système dépendant du temps et générer un ensemble de données. Ici, ces données ont été utilisées comme données d’entrée pour le modèle ML du groupe. À partir de là, ils devaient déterminer comment le modèle traiterait les données. Pour prendre une décision, l’équipe s’est penchée sur des approches informatiques établies pour supprimer le bruit. Plus précisément, ils ont étudié des approches basées sur un sous-ensemble de réseaux de neurones artificiels, connus sous le nom de modèles “d’auto-encodeur”. Les auto-encodeurs peuvent s’entraîner à reconstruire les données dans des versions plus compactes et être modifiés pour traiter le bruit en remplaçant les cibles bruyantes par des signaux d’entrée sans bruit.

L’inconvénient de nombreuses applications ML est les ressources importantes nécessaires pour former, stocker et appliquer des modèles. Idéalement, les modèles sont aussi simples que possible tout en produisant la fonctionnalité souhaitée. Cela est particulièrement vrai pour les applications scientifiques où une expertise dans le domaine spécifique est requise pour la collecte et la sélection d’exemples de formation.

Le groupe a formé son modèle à l’aide de données expérimentales réelles recueillies au CHX. Ils ont utilisé différents échantillons, taux d’acquisition de données et températures, chaque série de données contenant entre 200 et 1 000 images. Ils ont constaté que l’architecture du modèle sélectionné les rend rapides à former et ne nécessite pas une grande quantité de données de formation ou de ressources informatiques lors de son application. Ces avantages offrent la possibilité d’adapter les modèles à une expérience spécifique en quelques minutes à l’aide d’un ordinateur portable équipé d’une unité de traitement graphique.

“Nos modèles peuvent extraire des données significatives à partir d’images contenant un niveau de bruit élevé, ce qui nécessiterait autrement beaucoup de travail fastidieux pour les chercheurs à traiter”, a déclaré Anthony DeGennaro, informaticien au CSI, qui est également chercheur principal du projet. . “Nous pensons qu’ils pourront servir de plug-ins pour des expériences autonomes, par exemple en arrêtant les mesures lorsque suffisamment de données ont été collectées ou en servant d’entrée pour d’autres modèles expérimentaux.”

Dans le cadre de travaux en cours et futurs, le groupe étendra les capacités du modèle et l’intégrera dans les workflows d’analyse de données XPCS chez CHX et CSX. Ils étudient comment utiliser leur modèle de débruitage pour identifier les instabilités instrumentales pendant les mesures, ainsi que les hétérogénéités ou d’autres dynamiques inhabituelles dans les données XPCS inhérentes à l’échantillon. La détection d’observations anormales, telles qu’un comportement suspect dans les vidéos de surveillance ou la fraude par carte de crédit, est une autre application courante des modèles d’auto-encodeur, qui peut également être appliquée à la collecte ou à l’analyse automatisée de données.

L’équipe de recherche complète comprenait Maksim Rakitin, scientifique en informatique du DSSI, et Lutz Wiegart, scientifique de la ligne de lumière, tous deux co-auteurs de l’article. Cette recherche a utilisé Bluesky, une bibliothèque logicielle conçue pour le contrôle expérimental et la collecte de données largement développée par NSLS-II, ainsi que des bibliothèques de code Python open source développées par la communauté scientifique, notamment Jupyter et Dask.

Le projet Jupyter est un projet open source à but non lucratif et est développé en libre accès sur GitHub, grâce au consensus de la communauté Jupyter. Pour plus d’informations sur Jupyter, veuillez visiter leur site Web À propos.


Percer les secrets des transitions métal-isolant


Plus d’information:
Tatiana Konstantinova et al, Réduction du bruit dans la spectroscopie de corrélation de photons à rayons X avec des modèles d’encodeur-décodeur de réseaux neuronaux convolutifs, Rapports scientifiques (2021). DOI: 10.1038/s41598-021-93747-y

Fourni par le laboratoire national de Brookhaven

Citation: Des scientifiques développent une nouvelle approche informatique pour réduire le bruit dans les données de rayons X (18 avril 2022) récupéré le 18 avril 2022 sur https://techxplore.com/news/2022-04-scientists-approach-noise-x-ray.html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.