Prise en compte de l’organisation hiérarchique des espèces pour la découverte de signatures métagénomiques multi-échelles
Introduction
En 1982, lorsque J. Robin Warren et Barry J. Marshall mettent en évidence la relation entre ulcère de l’estomac et présence de la bactérie Helicobacter pylori, la communauté scientifique ne les prend pas au sérieux, estimant impossible la survie de micro-organismes dans l’estomac à cause de son acidité. Des études ultérieures leur donnent cependant raison et Warren et Marshall reçoivent finalement le prix Nobel de physiologie ou médecine en 2005 « pour la découverte de la bactérie Helicobacter pylori et son rôle dans les problèmes gastriques et les ulcères de l’estomac ».
Depuis, les connaissances et les données sur ce que l’on appelle désormais le microbiote –et en particulier sur le microbiote intestinal humain– s’accumulent à un rythme effréné. Celles-ci ouvrent la voie à de nouvelles opportunités thérapeutiques, mais soulèvent également de nouvelles questions. Y répondre nécessite des méthodes statistiques adaptées et de plus en plus puissantes.
Nous nous intéressons ici aux méthodes dites « d’abondance différentielle », dont le but est de détecter les espèces dont la présence ou l’abondance sont liées à un environnement, le statut de l’hôte et plus généralement un facteur d’intérêt. Plus particulièrement, nous considérerons les approches hiérarchiques, où une information de similarité entre espèces, disponible sous la forme d’un arbre, peut être utilisée pour augmenter la puissance statistique du test.
Ce manuscrit commence par un chapitre de contextualisation biologique. Nous y introduisons les concepts de microbiote et de métagénomique à travers l’exemple du microbiote intestinal et les enjeux qui lui sont associés. Puis nous détaillons les différentes étapes du traitement classique des données métagénomiques –collecte, séquençage, prétraitement. Enfin, ce chapitre se termine en présentant les jeux de données qui seront utilisés dans ce manuscrit.
Le deuxième chapitre est un chapitre de contextualisation statistique autour des analyses d’abondances différentielles. Nous y rappelons les tests statistiques dédiés à cette question puis introduisons la problématique des tests multiples et les corrections habituelles. Enfin, nous terminons ce chapitre en présentant trois méthodes d’analyse d’abondance différentielle qui utilisent une information hiérarchique pour augmenter leur puissance statistique.
Après avoir présenté différentes distances entre les arbres, le chapitre 3 présente une évaluation de l’efficacité des méthodes d’abondances différentielles hiérarchiques et l’impact du choix de l’arbre sur celles-ci.
Le chapitre 4 présente la nouvelle approche que nous avons mise au point pour inclure une information hiérarchique dans les études d’abondance différentielle. Il se termine par une évaluation de cette nouvelle méthode sur des jeux de données synthétiques et réelles.
Enfin, le chapitre 5 présente la résolution de trois problèmes d’analyse numérique que nous avons rencontrés au cours de nos recherches.