Des informaticiens développent un programme pour trouver des variantes “basse fréquence” dans les données de séquence

Des informaticiens développent un programme pour trouver des variantes

Une illustration définit ce qui différencie les variants mononucléotidiques (iSNV) au sein d’un même hôte des polymorphismes mononucléotidiques qui se propagent d’un hôte à l’autre. Les informaticiens de l’Université Rice ont introduit Variabel, qui utilise des données de séquençage pour identifier les variantes intra-hôte à basse fréquence du SRAS-CoV-19 à partir d’ensembles de données publics. Crédit : Treangen Lab

Des détails sur les variantes cachées dans le déluge de séquences génétiques du SRAS-CoV-2 seraient bons à savoir, si seulement les chercheurs pouvaient y accéder.

Un nouveau programme développé à la George R. Brown School of Engineering de l’Université Rice rendra possible, au moins pour les “variantes intra-hôtes”, celles qui apparaissent dans les données génomiques de la même personne positive au COVID-19.

Une équipe de Rice dirigée par l’informaticien Todd Treangen et l’étudiant diplômé Yunxi Li a développé Variabel, qui identifie avec précision les “variantes à basse fréquence” du virus qui cause le COVID-19.

La découverte de ces indices pourrait être essentielle pour identifier des variantes potentiellement dévastatrices avant qu’elles n’aient une chance de se propager, a déclaré Treangen.

Les données sont disponibles gratuitement, mais il y en a beaucoup. La recherche rend disponible l’extraction de variantes à basse fréquence pour environ un demi-million de génomes du SRAS-CoV-2 rassemblés par Oxford Nanopore Technologies (ONT), qui offre une plate-forme abordable pour le séquençage rapide de longues molécules uniques d’ADN ou d’ARN.

« Variabel permet directement l’utilisation d’une technologie abordable de séquençage des nanopores pour l’identification de la variation intra-hôte après une infection virale », a déclaré Treangen, dont les travaux se sont concentrés sur la surveillance des maladies infectieuses bien avant la pandémie de COVID-19.

Le laboratoire a eu un succès similaire en testant Variabel sur des données de séquence de patients infectés par Ebola et norovirus.

Le programme open-source, détaillé dans Communication Natureest disponible en téléchargement sur https://gitlab.com/treangenlab/variabel.

Les chercheurs affirment que la clé de Variabel est sa capacité à distinguer les vrais variants des erreurs de séquençage dans le processus ONT.

Pour valider Variabel, ils ont comparé les données recueillies au fil du temps auprès de patients positifs uniques ainsi que des séquences d’ensembles de données inter-patients, produites par ONT et une autre technique de séquençage, Illumina. Au fil du temps, un seul patient peut héberger jusqu’à un milliard de copies d’un virus.

En comparant les résultats avant et après l’application de Variabel aux données, ils ont découvert que le programme était capable de corriger la grande majorité des erreurs de séquençage.

“Variabel ouvre la porte à une caractérisation portable, abordable et rapide de la variation intra-hôte, qui pourrait finalement aider à la découverte de futures mutations spécifiques aux variantes préoccupantes”, a déclaré Treangen, dont le laboratoire, avec l’Institut Ken Kennedy de Rice, a organisé une Symposium du 11 mars pour discuter des avancées scientifiques stimulées par la pandémie.

Les co-auteurs de l’article sont Joshua Kearney de premier cycle de Rice et l’ingénieur logiciel Bryce Kille, ainsi que l’associé postdoctoral du Baylor College of Medicine Medhat Mahmoud et Fritz Sedlazeck, professeur agrégé au Centre de séquençage du génome humain. Treangen est professeur adjoint d’informatique.


Des scientifiques montrent les avantages de la bioinformatique avec l’outil PlasmidHawk


Plus d’information:
Yunxi Liu et al, Sauver les variants à basse fréquence au sein des populations virales intra-hôtes directement à partir des données de séquençage Oxford Nanopore, Communication Nature (2022). DOI : 10.1038/s41467-022-28852-1

Fourni par l’Université Rice

Citation: Des informaticiens développent un programme pour trouver des variantes “basse fréquence” dans les données de séquence (14 mars 2022) récupéré le 14 mars 2022 sur https://techxplore.com/news/2022-03-scientists-low-frequency-variants-sequence .html

Ce document est soumis au droit d’auteur. En dehors de toute utilisation loyale à des fins d’étude ou de recherche privée, aucune partie ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni seulement pour information.