In english

Thèmes de recherche

Thèmes étudiés

  • Le modèle linéaire fonctionnel et son interprétabilité.
  • Segmentation de série, approche bayésienne.
  • Sélection de variables en grande dimension, approche Bayésienne.
  • Algorithmes MCMC: algorithmes population-based, algorithme equi-energy sampler de Kou et al. (2006) et algorithmes Reversible Jump (RJMCMC).
  • Méthodes sans vraisemblance (ou Approximate Bayesian Computation, ABC).

Principales réalisations

  • Segmentation d'une série avec biais fonctionnel, approche bayésienne. En collaboration avec Karine Bertin, Cristian Meza et Emilie Lebarbier. L'estimation de modèles de détection de ruptures multiples a été largement étudiée, dans de nombreux domaines d'application. En pratique, en plus de l'observation d epoints de rupture, il est fréquent d'observer des biais environnementaux ou expérimentaux qu'il est alors nécessaire de prendre en compte dans le modèle. Récemment, des modèles semi-paramétriques ont été introduits par Picard et al. [2011] et Bertin et al. [2014] pour modéliser la segmentation jointe de séries en présence de biais. En effet, comme la forme du biais est en général totalement ou partiellement inconnue, une approche non-paramétrique est utilisée pour le modéliser et l'estimer, tandis que les points de rupture sont estimés à l'aide d'une approche paramétrique. Ces modèles semi-paramétriques sont ensuite étudiés dans un cadre fréquentiste en utilisant une procédure itérative, en alternant la partie segementation (partie paramétrique) avec l'estimation du biais fonctionnel (partie non-paramétrique). Nous travaillons actuellement à développer une approche bayésienne pour estimer de type de modèles semi-paramétriques.

  • Régression linéaire fonctionnelle bayésienne interprétable. En collaboration avec Christophe Abraham et Paul Grollemund. En analyse de données fonctionnelles, un modèle couramment utilisé est le modèle de régression linéaire fonctionnel, expliquant une variable réelle par une covariable fonctionnelle. L'estimation du coefficient de régression fonctionnel a été largement étudiée cette dernière décennie dans un cadre fréquentiste, voir par exemple Ramsay et Silverman [2005,2006], Müller and Stadtmüller [2005] ou Ferraty et Vieu [2006]. Toujours dans un cadre fréquentiste, une approche novatrice, FLiRTI (Functional Linear Regression That is Interpretable, James et al. [2009]), a été récemment développée dans le but d'obtenir un coefficient de régression fonctionnel facilement interprétable. Cette méthode impose un coefficient de régression fonctionnel parcimonieux (nul sur certains intervalles), et qui soit de forme simple lorsqu'il n'est pas nul (typiquement constant ou linéaire par morceaux). Cette approche est particulièrement intéressante pour des applications en agronomie ou biologie, car les agronomes et biologistes apprécient avoir des estimateurs de formes simples et parcimonieux. Nous nous intéressons donc à développer une méthode fournissant un estimateur interprétable pour le coefficient de régression fonctionnel, mais dans un cadre bayésien. Cela nous permettra notamment de prendre en compte la connaissance d'experts comme information a priori.

  • Sélection de variables dans un modèle probit mixte, application à des données de puces microarray. Développement d'une méthode de sélection de variables prenant en compte le design d'une étude, et en particulier le fait que plusieurs jeux de données soient fusionnés. Nous avons proposé une méthode permettant de sélectionner quelques variables pertinentes parmi plusieurs dizaines de milliers dans un modèle de régression probit mixte, ce modèle faisant partie d'un modèle bayésien hiérarchique plus large. Le jeu de données est ainsi considéré comme un effet aléatoire. La première étape consiste à spécifier le modèle, ainsi que les distributions a priori, avec notamment l'utilisation de l'a priori conventionnel de Zellner (1986) pour le vecteur des coefficients associé aux effets fixes. Dans une seconde étape, nous avons utilisé un algorithme Metropolis-within-Gibbs (Robert et Casella, 2004) couplé à la grouping (ou blocking) technique de Liu (2001) afin de surmonter certaines difficultés d'échantillonnage. Ce choix a des avantages théoriques, mais également computationnels. La méthode développée a été appliquée à des jeux de données microarray sur le cancer du sein.

    Baragatti M Bayesian variable selection for probit mixed models, applied to gene selection, Bayesian Analysis, 2011, 6(2):209-230. Arxiv.

  • Sélection de variables dans un modèle probit mixte : extension en introduisant un paramètre ridge. En collaboration avec D. Pommeret. La méthode de sélection de variables que nous avons proposée a une limite : la matrice X'X utilisée dans l'a priori de Zellner pour le vecteur associé aux effets fixes doit nécessairement être inversible. Or il y a deux cas possibles dans lesquels cette matrice ne sera pas inversible : lorsque le nombre de variables sélectionnées dépasse le nombre d'observations, ou lorsque des variables sont combinaisons linéaires d'autres variables. Dans ces cas, l'a priori classique de Zellner ne peut être utilisé. Nous avons alors proposé de modifier l'a priori de Zellner (1986) en y introduisant un paramètre ridge. De plus, nous avons proposé une manière de choisir les hyper-paramètres associés. La méthode proposée a été comparée avec d'autres méthodes de sélection de variables, notamment le Lasso bayésien. Nous travaillons actuellement à une méthode bayésienne de sélection de variables combinant les approches Stochastic Search Variable Selection et Lasso bayésien.

    Baragatti M, Pommeret D, Comments on Bayesian variable selection for disease classification using gene expression data. Bioinformatics, 2011, 27(8):1194.
    Baragatti M, Pommeret D. A study of variable selection using g-prior distribution with ridge parameter, Computational Statistics and Data Analysis, 2012, 56(6): 1920-1934. Arxiv.

  • Développement d'une méthode population-based MCMC, le Parallel Tempering with an Equi-Energy Move (PTEEM). En collaboration avec D. Pommeret et A. Grimaud. L'algorithme Equi-Energy Sampler (EES) introduit par Kou et al. (2006) se base sur une population de chaînes actualisées par des mouvements locaux et globaux. L'objectif de cet algorithme est de faciliter les mouvements globaux entre les différentes chaînes, ce qui permet une meilleure exploration de l'espace des paramètres par la chaîne d'intérêt. Cette méthode est apparemment plus efficace que l'algorithme Parallel Tempering (PT) classique. Cependant, elle est difficile d'utilisation dans le cas d'utilisation d'un échantillonneur de Gibbs, elle nécessite un stockage important de valeurs, et sa convergence n'est pas évidente (Andrieu et al. 2008, Hua et Kou 2010, Fort et al. 2010). Nous avons proposé une adaptation de l'EES qui combine PT avec le principe de sauts entre chaînes ayant des niveaux d'énergie similaires. Cette adaptation appelée Parallel Tempering with Equi-Energy Move (PTEEM) conserve l'idée originale de l'algorithme EES tout en assurant de bonnes propriétés théoriques. Cet algorithme a été appliqué en combinaison avec un algorithme Reversible Jump à des données de chimiosensibilité à la doxycycline d'isolats de Plasmodium Falciparum (données de S. Briolant).

    Baragatti M, Grimaud A, Pommeret D. Parallel tempering with Equi-Energy moves, Statistics and Computing, 2012. Arxiv.
    Baragatti M, Briolant S, Nosten F et al. No association between Doxycycline susceptibility and copy number of Pfmdt and PftetQ genes in Plasmodium falciparum Thaï isolates, en préparation.

  • Développement d'une méthode population-based MCMC sans vraisemblance (ou Approximate Bayesian Computation, ABC). En collaboration avec D. Pommeret et A. Grimaud. La plupart des méthodes statistiques nécessitent la connaissance et le calcul de la vraisemblance des données. Dans certains cas complexes l'inférence peut être difficile car le calcul de cette vraisemblance s'avère trop coûteux, voire impossible si celle-ci ne s'exprime pas sous forme explicite. Les méthodes sans vraisemblance offrent une solution lorsque des données peuvent être simulées suivant le modèle supposé, et que ces données peuvent être assez bien résumées par un nombre raisonnable de statistiques. Alors, la distribution a posteriori d'un paramètre d'intérêt peut être approximée sans avoir à calculer la vraisemblance. De nombreuses méthodes basées sur ce principe ont été développées, parmi lesquelles l'ABC-MCMC (Marjoram, 2003), l'ABC-PMC (Beaumont, 2009) ou l'ABC-SMC (Del Moral, 2011). La méthode ABC-MCMC est longtemps restée la méthode de référence, mais il apparaît depuis quelques années que les méthodes sans vraisemblance séquentielles comme l'ABC-PMC ou l'ABC-SMC sont bien plus performantes. Nous proposons une nouvelle méthode sans vraisemblance basée sur la théorie MCMC, utilisant une population de chaînes et permettant des échanges entre elles, par analogie avec le Parallel Tempering. Cette algorithme est appelé ABC-Parallel Tempering ou Likelihood-Free Parallel Tempering.

    Baragatti M, Grimaud A, Pommeret D. Likelihood-Free Parallel Tempering, Statistics and Computing, 2012. Arxiv.