La mise à disposition de 
   données multi-omiques combinées constituerait, pour la communauté scientifique, une opportunité unique de mieux comprendre, à une échelle intégrée, le développement et la progression de mécanismes physiopathologiques. L'analyse de telles données permettrait de définir des signatures et d'identifier des 
   biomarqueurs spécifiques de telle ou telle pathologie ou dysfonctionnement. Or, à ce jour, très peu de données globales sur de grandes cohortes sont disponibles et accessibles aux chercheurs.
DU GÈNE AU PHÉNOTYPE
 L'analyse à grande échelle de la fonction des gènes menée au sein du consortium 
   International Mouse Phenotyping (IMPC) a confirmé la nature pléiotropique des gènes chez les mammifères, c'est-à-dire qu'un gène unique peut être responsable de plusieurs caractères phénotypiques apparemment éloignés. Ainsi, la 
   phénogénomique ne peut expliquer à elle seule la fonction des gènes et de leurs mutants et des approches omiques complémentaires sont nécessaires. L'étude globale des produits des gènes, les protéines (protéomique) et des métabolites (métabolomique), combinée aux approches phénogénomiques, devrait permettre de comprendre le rôle d'un ou plusieurs gènes et de là, l'ensemble des fonctions biologiques et métaboliques, dans des conditions normales ou pathologiques. 
   
LE CONSORTIUM ProMetIS
 Dans cette étude, publiée dans la revue de référence pour les données ouvertes 
   Scientific Data, les 
   quatre Infrastructures Nationales en Biologie et Santé (INBS) en phénogénomique de la souris (www.phenomin.fr), protéomique (www.profiproteomics.fr), métabolomique (www.metabohub.fr) et bioinformatique (www.france-bioinformatique.fr) se sont associées pour développer et mettre à disposition les données et le mode opératoire pour la caractérisation de 
   lignées murines mutantes par des approches combinées de protéomique et de métabolomique. Les chercheurs ont choisi de produire ces données multi-niveaux à partir d'échantillons plasmatiques et hépatiques de deux lignées mutantes de souris, générées à l'Institut clinique de la souris (Illkirch, France) dans le cadre de 
   l'IMPC*. Les 2 lignées sont dépourvues des gènes 
   Lat (linker for activation of T cells) et 
   Mx2 (MX dynamin-like GTPase 2), respectivement. L'ensemble des 9 jeux de données brutes (1 préclinique, 2 protéomique et 6 métabolomique), correspondant à l'étude des 2 lignées de souris, est dorénavant disponible dans les 
   bases de données de référence (IMPC, 
   
      PRIDE et 
   
      MetaboLights). Par ailleurs, les données prétraitées ainsi que le 
   
      pipeline d'analyse bioinformatique et biostatistique sont également mis à disposition sous la forme d'un package en langage R en libre accès (github.com/IFB-ElixirFr/ProMetIS).
 
BONNES PRATIQUES
Les données font l'objet d'un 
   contrôle-qualité, détaillé dans l'article, pour chacune des modalités, qui s'appuie sur le 
   savoir-faire des plateformes du CEA et des infrastructures nationales. Un effort particulier a porté sur l'homogénéisation des 
   workflows de normalisation et des formats et sur leur mise à disposition pour la communauté, afin de faciliter les travaux ultérieurs d'intégration des données (une étude est en cours au CEA) et de comparaison des méthodologies.
L'étude pilote 
   ProMetIS représente une avancée significative vers le 
   phénotypage moléculaire de grandes cohortes. Ici, les données fournissent des informations inédites sur la caractérisation fonctionnelle des gènes 
   Lat et 
   Mx2. Elles ont par ailleurs vocation à devenir une référence d'accessibilité, de reproductibilité et d'interopérabilité (critères 
   FAIR) dans le domaine des études multi-omiques. Ces données seront notamment précieuses pour développer de nouvelles approches d'intégration bioinformatique et biostatistique. 
   
   
Contact : 
   etienne.thevenot@cea.fr
- On entend par 
   phénomique l'étude systématique des phénotypes, c'est-à-dire l'ensemble des caractères physiques et biochimiques d'un organisme, qui dépendent de la génétique, de l'environnement et de leur interaction.
- Un gène 
   pléiotropique (gène pléiotrope) est un gène unique responsable de plusieurs caractères phénotypiques apparemment éloignés.
- 
   R est un 
   langage de programmation et un logiciel libre destiné aux statistiques et à la science des données. 
   
- Un 
   pipeline (ou workflow) d'analyse est une succession d'étapes expérimentales ou informatiques pour traiter les échantillons ou les données.
    
 
    
*Dans le cadre de la caractérisation phénogénomique à grande échelle de modèles de souris, l'IMPC désactive ou "éteint" individuellement chacun des gènes qui composent le génome de la souris. Les souris mutantes subissent des tests physiologiques standardisés (marqueurs biochimiques cliniques, anatomie, comportement) dans une série de systèmes biologiques afin de déduire la fonction des gènes, et les données sont ensuite mises librement à la disposition des chercheurs sur le site web de l'IMPC.