La nouvelle méthode réduit l’indexation de semaines en heures, les recherches en minutes

génome

Crédit : CC0 Domaine public

Les informaticiens de l’Université Rice envoient RAMBO pour sauver les chercheurs en génomique qui attendent parfois des jours ou des semaines pour les résultats de la recherche dans d’énormes bases de données ADN.

Le séquençage de l’ADN est si populaire, les ensembles de données génomiques doublent de taille tous les deux ans et les outils pour rechercher les données n’ont pas suivi le rythme. Les chercheurs qui comparent l’ADN à travers les génomes ou étudient l’évolution d’organismes comme le virus qui cause le COVID-19 attendent souvent des semaines que le logiciel indexe de grandes bases de données « métagénomiques », qui s’agrandissent chaque mois et sont désormais mesurées en pétaoctets.

RAMBO, qui est l’abréviation de « filtre de floraison répété et fusionné », est une nouvelle méthode qui peut réduire les temps d’indexation de ces bases de données de semaines en heures et les temps de recherche d’heures en secondes. Les informaticiens de l’Université Rice ont présenté RAMBO la semaine dernière à la conférence SIGMOD 2021 de l’Association for Computing Machinery.

« L’interrogation de millions de séquences d’ADN sur une grande base de données avec des approches traditionnelles peut prendre plusieurs heures sur un grand cluster de calcul et peut prendre plusieurs semaines sur un seul serveur », a déclaré le co-créateur de RAMBO, Todd Treangen, un informaticien de Rice dont le laboratoire est spécialisé en métagénomique. . « Réduire les temps d’indexation des bases de données, en plus des temps de requête, est d’une importance cruciale car la taille des bases de données génomiques continue de croître à un rythme incroyable. »

Pour résoudre le problème, Treangen s’est associé à l’informaticien de Rice Anshumali Shrivastava, spécialisé dans la création d’algorithmes qui rendent le big data et l’apprentissage automatique plus rapides et plus évolutifs, et les étudiants diplômés Gaurav Gupta et Minghao Yan, co-auteurs principaux de la conférence à comité de lecture papier sur RAMBO.

RAMBO utilise une structure de données qui a un temps de requête nettement plus rapide que les méthodes d’indexation du génome de pointe ainsi que d’autres avantages comme la facilité de parallélisation, un taux de faux négatifs nul et un faible taux de faux positifs.

« Le temps de recherche de RAMBO est jusqu’à 35 fois plus rapide que les méthodes existantes », a déclaré Gupta, doctorant en génie électrique et informatique. Dans des expériences utilisant un ensemble de données de 170 téraoctets de génomes microbiens, Gupta a déclaré que RAMBO a réduit les temps d’indexation de « six semaines sur un cluster sophistiqué et dédié à neuf heures sur un cluster de produits partagés ».

Yan, un doctorant en informatique, a déclaré : « Sur cette énorme archive, RAMBO peut rechercher une séquence de gènes en quelques millisecondes, voire en quelques millisecondes, en utilisant un serveur standard de 100 machines.

RAMBO améliore les performances des filtres Bloom, une technique de recherche vieille d’un demi-siècle qui a été appliquée à la recherche de séquences génomiques dans un certain nombre d’études précédentes. RAMBO améliore les méthodes de filtrage Bloom antérieures pour la recherche génomique en utilisant une structure de données probabiliste connue sous le nom d’esquisse count-min qui « conduit à un meilleur compromis en termes de temps de requête et de mémoire » que les méthodes précédentes, et « dépasse les lignes de base actuelles en réalisant un structure de données d’indexation très robuste, à faible mémoire et ultrarapide », ont écrit les auteurs dans l’étude.

Gupta et Yan ont déclaré que RAMBO a le potentiel de démocratiser la recherche génomique en permettant à presque tous les laboratoires de rechercher rapidement et à moindre coût d’énormes archives génomiques avec des ordinateurs du commerce.

« RAMBO pourrait réduire le temps d’attente pour des tonnes d’enquêtes en bio-informatique, telles que la recherche de la présence du SRAS-CoV-2 dans les métagénomes des eaux usées à travers le monde », a déclaré Yan. « RAMBO pourrait jouer un rôle déterminant dans l’étude de la génomique du cancer et de l’évolution du génome bactérien, par exemple. »


La protéine ‘Rambo’ n’est peut-être pas si violente après tout


Plus d’information:
Gaurav Gupta et al, Fast Processing and Querying of 170TB of Genomics Data via a Repeated And Merged BloOm Filter (RAMBO), Actes de la Conférence internationale 2021 sur la gestion des données (2021). DOI : 10.1145/3448016.3457333

Fourni par l’Université Rice

Citation: Bases de données ADN : une nouvelle méthode réduit l’indexation de semaines en heures, les recherches en minutes (2021, 28 juin) récupérées le 28 juin 2021 à partir de https://techxplore.com/news/2021-06-dna-databases-method-indexing-weeks .html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation équitable à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.