Conclusion et perspectives
Dans cette thèse, nous avons exploré différentes pistes d’amélioration des méthodes d’analyse d’abondance différentielle en métagénomique tirant parti d’une information hiérarchique sur les taxons.
Après avoir présenté la métagénomique et les méthodes d’abondance différentielle, hiérarchiques ou non, nous avons introduit dans le chapitre 3 l’arbre des corrélations. Par construction, cet arbre regroupe les taxons aux profils d’abondance similaires. Intuitivement, les taxons différemment abondants devraient être regroupés dans l’arbre, c’est-à-dire y former des sous-arbres. Ce regroupement de signal permet aux procédures hiérarchiques utilisant l’arbre des corrélations d’être plus puissantes que celles utilisant la taxonomie ou la phylogénie. Cependant, les méthodes existantes souffrent de gros désavantages : le lissage des \(z\)-scores de Xiao et al. (2017) a du mal à prendre en compte l’arbre et son avantage comparatif par rapport à BH vient avant tout (i) de sa deuxième étape de calcul des \(p\)-valeurs par permutation et de (ii) son implémentation, qui se rabat sur BH lorsque la procédure hiérarchique ne retrouve pas assez de taxons identifiés par BH. De même, le FDR hiérarchique ne permet pas de contrôler le FDR à un niveau spécifié ex ante mais uniquement de calculer un niveau de contrôle ex post, à l’issue de la procédure. Dans sa formulation la plus naïve, il est même incapable de descendre de la racine et d’explorer l’arbre lorsqu’on l’applique à certaines types de données, par exemple les données compositionnelles. En conséquence, il est préférable d’utiliser la procédure BH plutôt que ces premières méthodes hiérarchiques.
Devant l’absence de procédures hiérarchiques satisfaisantes, nous avons développé notre propre méthode d’analyse d’abondance différentielle hiérarchique, présentée dans le chapitre 4 et baptisée zazou. Il s’agit d’une combinaison de quatre méthodes statistiques connues que nous avons adaptées à notre problème :
une modélisation des \(z\)-scores par un processus d’Ornstein-Uhlenbeck sur un arbre avec sauts,
une régression lasso pour estimer de façon parcimonieuse la localisation des sauts dans l’arbre,
une procédure de débiaisage du lasso,
une correction pour tests multiples adaptée au lasso débiaisé.
Lorsque les taxons différentiellement abondants respectent la structure de l’arbre, zazou est une procédure plus puissante que la procédure BH. Ce n’est en revanche plus le cas lorsque les espèces différentiellement abondantes sont réparties aléatoirement dans l’arbre : la régularisation indue par un arbre non informatif fait alors perdre de la puissance statistique.
Enfin, nous avons proposé des solutions effectives aux problèmes d’analyse numérique rencontrés lors de l’implémentation de cette procédure dans le package {zazou}
.
Association versus prédiction
Jusqu’à présent, notre intérêt était de trouver les taxons associés à une variable réponse –dits différentiellement abondants– en répondant à la question : « à partir du statut des échantillons, que peut-on dire des taxons qui les composent ? ». Il est possible de retourner ce problème pour en faire un problème de prédiction : « à partir de la composition des échantillons, que peut-on dire sur leur statut ? ». Ce problème n’a pas été abordé dans ce manuscrit et nous allons tenter de donner ici quelques pistes de réflexion.
L’approche la plus classique pour effectuer des prédictions est la régression linéaire. Dans ce cadre mathématique, Park, Hastie, & Tibshirani (2007) ont montré que si des groupes de prédicteurs sont suffisamment corrélés, il est plus intéressant –du point de vue de l’erreur de prédiction– d’effectuer une régression simple sur la moyenne de leur composantes plutôt que de déterminer un coefficient par variable.
Illustrons ceci par un exemple où il n’y a qu’un seul bloc de variables corrélées et standardisées \(x_{1}, \ldots, x_{m}\) telles que
\[\begin{equation*} X^TX = \begin{bmatrix} 1 & \rho & \cdots & \rho \\ \rho & 1 & \ddots & \vdots \\ \vdots & \ddots & \ddots &\rho \\ \rho & \cdots & \rho & 1 \end{bmatrix}. \end{equation*}\]
Au lieu de modéliser la variable réponse \(y\) par \(y_i\sim \sum_j \beta_j x_{i,j} + \varepsilon_i\), il est préférable d’utiliser \(y_i\sim \beta^\star \sum_j \frac{x_{i,j}}{m} + \varepsilon_i\) dès lors que \(\rho\) est suffisamment proche de \(1\).
Ce résultat est intéressant mais l’analyse est limitée à un design peu réaliste, où la corrélation est identique entre toutes les paires de variables. Des extensions à des designs plus réalistes, avec des groupes disjoints de variables corrélées ou une structure de corrélation connue entre les variables –par exemple de type OU sur un arbre– seraient intéressantes pour des applications à l’étude du microbiote.
Autres procédures hiérarchiques
Si l’on regarde les procédures hiérarchiques existantes, elles prennent toutes en entrée un vecteur de \(p\)-valeurs ou de \(z\)-scores. Pour tester ces méthodes, nous avons eu recours à des tests non paramétriques sur les rangs, comme Wilcoxon ou Kruskal-Wallis. Il serait alors intéressant de regarder la combinaison de tests conçus spécifiquement pour les données métagénomiques, comme ceux présentés dans la section 2.1.4, avec des procédures hiérarchiques pour évaluer la plus-value de la hiérarchie pour des procédures de tests sophistiquées.
Dans les méthodes actuelles, la hiérarchie intervient toujours dans un deuxième temps, en tant que structure de lissage ou de correction. À notre connaissance, il n’existe pas de test qui prenne directement en compte cette hiérarchie. Des modèles linéaires à matrice de variance-covariance conditionnée par une hiérarchie pourraient convenir.
Les plus proches sont les modèles gaussiens multivariées utilisées en méthodes comparatives phylogénétiques :
\[\begin{equation*} \text{vec}(Z) \sim \mathcal{N}_{np}\left(0, \Sigma \otimes R\right) \end{equation*}\]
dans lesquelles \(\Sigma\) capture la dépendances entre taxons (typiquement la matrice de covariance d’un OU sur arbre), \(R\) la dépendance entre observations au sein d’un taxon et où \(\otimes\) est le produit de Kronecker. Ces modèles peuvent être adaptés à des données de comptage en adoptant une approche hiérarchique : \(Z\) est une variable latente et les comptages \(Y\), conditionnellement à \(Z\), sont indépendants et tirées dans une loi discrète, typiquement Poisson ou binomiale négative (avec ou sans excès de zéros). S’ils permettent théoriquement sous cette forme de gérer les données de comptages typiquement observées en métagénomique, ils sont plutôt utilisés en pratique pour faire de la détection de ruptures en écologie (Bastide, Ané, Robin, & Mariadassou, 2018) et ne permettent pas à notre connaissance de faire des tests d’abondance différentielle.
Amélioration de zazou
zazou souffre d’un léger problème lors de l’inférence des paramètres du processus d’Ornstein-Uhlenbeck sur l’arbre : il arrive parfois que le modèle choisi par le critère BIC ne contienne aucun saut. Si la procédure de débiaisage fait qu’il est ensuite tout de même possible de détecter des taxons différentiellement abondants, on aimerait pouvoir être moins strict dans notre sélection de modèle. D’autres procédures de sélection de modèle via un BIC phylogénétique (Khabbazian, Kriebel, Rohe, & Ané, 2016) ou une heuristique de pente (Baudry, Maugis, & Michel, 2012) ont été testées en alternative au BIC traditionnel mais les résultats ne sont pas convaincants. Dans le contexte de zazou, le critère idéal sélectionnerait trop de sauts plutôt que pas assez, l’étape final de tests permettant de filtrer les taxons issus des sauts identifiés à tort.
Une autre piste d’amélioration consiste à adapter l’étape de débiaisage aux hypothèses de notre problème. Lors de l’inférence ponctuelle des sauts, le modèle est en effet conditionné pour que les moyennes aux feuilles soient à valeurs dans \(\RR_-\). Cependant, lors du débiaisage, les valeurs aux feuilles ne sont plus contraintes à vivre dans cette demi-droite. L’imposition de contraintes rend l’analyse plus complexe mais il serait intéressant de vérifier son impact sur les propriétés théorique du débiaisage.
Enfin et dans la lignée du point précédent, bien que l’algorithme se montre efficace, les hypothèses requises pour avoir les résultats théoriques des différentes méthodes employées dans zazou ne sont pas complètement respectées. Il serait intéressant de creuser cet aspect théorique.