Exploiter l'intégralité des données de séquençage de Mycobacterium tuberculosis : une plateforme pour l’analyse génomique in-silico à grande échelle
Gaëtan Senelle
HAL (Le Centre pour la Communication Scientifique Directe) · 2024-12
Abstract
La tuberculose demeure un problème de santé publique majeur à l’échelle mondiale.Selon l’Organisation mondiale de la santé, en 2022, la tuberculose était la deuxième cause de décès dans le monde due à un seul agent infectieux. Depuis plus d'une décennie, l'étude de cette maladie peut également se faire par l'analyse des génomes obtenus de nombreuses souches de tuberculose. Avec le développement des méthodes de séquençage et la réduction de leur coût, on compte actuellement plus de 160 000 séquences de génomes disponibles publiquement. Il s'agit d'une source de données d'une grande richesse mais qui reste une source de données brute, qu'il reste à analyser. Cette thèse introduit la plateforme TB-Annotator qui a permis l’analyse de l’intégralité des données de séquençage de Mycobacterium tuberculosis publiquement disponibles. Cette plateforme met en oeuvre de nombreuses méthodes in-silico spécialement développées et adaptées à l’extraction de toutes les caractéristiques génomiques propres au MTBC, notamment dans la détection des variations structurales et dans l’optimisation des pipelines bioinformatiques. Les capacités d’analyse en temps réel de cette masse d’information par TB-Annotator ont permis plusieurs découvertes pour la phylogénie et la phylogéographie du MTBC. Cette thèse décrit notamment la découverte d’une nouvelle lignée rare, la lignée 10, mise en évidence par 2 séquences publiques non classifiées après analyse des 160 000 séquences disponibles. Plusieurs améliorations de la définition de lignées et sous-lignées sont aussi décrites, notamment L2, L4, L6 et L7. L’ouverture de cette plateforme devrait permettre de simplifier l’accessibilité des analyses à grande échelle pour l’épidémiologie, la phylogénétique, la phylogéographie et la résistance aux médicaments.
MeSH terms
- In silico
- Mycobacterium tuberculosis
- Computational biology
- Scale (ratio)
- Biology
- Tuberculosis
- Computer science
- Data science
- Genetics