Vous êtes ici : Accueil > Départements et services > Genoscope > Laboratoire d'informatique sci ... > Équipe R&D bio-informatique et sequençage

Équipe R&D bio-informatique et sequençage

Activités


​  

Publié le 25 juin 2018

L’équipe R&D Bioinformatique et Séquençage prend en charge le flux de données directement issus des séquenceurs afin de le valoriser au travers de différents traitements bioinformatiques et interfaces de visualisation. Les données sont hétérogènes et couvrent tous les types de préparation et de séquençage. Elles sont issues de différents projets de séquençage, en partenariat avec les laboratoires de l’Institut Génomique, ou en collaboration avec des laboratoires extérieurs. Les traitements couvrent quant à eux tout le spectre des analyses bioinformatiques (primaires, secondaires et tertiaires) , depuis la génération et le contrôle qualité des données jusqu’à l’assemblage et l’annotation de génomes eucaryotes.


        
NGS Workflow

Production de données

Veille technologique

L’équipe R&D Bioseq est en interaction étroite avec l’équipe développement technologique afin de développer de nouveaux protocoles qui répondent aux besoins des analyses bioinformatiques sous-jacentes (metagenomique, transcriptomique, assemblage, annotation ...). Dans ce cadre plusieurs points clés ont été identifiés :

  1. Choix d’organismes modèles​
  2. Développement/Amélioration nouveaux protocoles
  3. Identification biais qualité
  4. Evaluation des différentes technologies de séquençages

Contrôle Qualité

L’équipe R&D Bioseq à mis en place un processus de contrôle qualité des données issues des séquenceurs. Ce contrôle est basé sur des métriques identifiées en fonction des différentes technologies de séquençage et des types d’analyses bioinformatiques sous-jacentes. Dans ce cadre nous avons développé plusieurs composants :

  1. Une suite logicielle pour les traitements qualités
  2. Un workflow afin d'ordonnancer ces traitements
  3. Une IHM pour la visualisation des résultats de ces traitements et la validation des données de séquençage





Workflow de traitement des données




  
 

Assignation taxonomique

  
 

                                        Visualisation du contrôle qualité​


Assemblage

A partir de collections de lectures aléatoires d’un projet de séquençage de génome, dit WGS (Whole Genome Shotgun), l’étape d’assemblage a pour but de reconstituer la séquence des chromosomes de l’organisme étudié. Les algorithmes utilisés s’appuient sur des informations à la fois de relations d’identités entre lectures chevauchantes et sur des informations de topologie apportées par les « liens » ou des marqueurs provenant de cartes génétiques et physiques. Le résultat de l’assemblage, un ensemble de « supercontigs », est une reconstruction consensuelle de la séquence d’origine.

Les outils et méthodes mises en oeuvre par le groupe pour cette activité proviennent soit de développements informatique réalisées à l’Institut Génomique, soit de développements réalisées par d’autres groupes impliquées dans des problématiques d’assemblage.


Annotation

L’annotation a pour objectif de définir le long des séquences assemblées la structure des gènes, c’est-à-dire leurs positions de début et de fin, ainsi que celles de leurs exons. Nous avons choisi une approche qui prend en compte un nombre d’informations a priori indéfini et de toute nature. Nous les regroupons toutefois en trois grandes catégories :

1/ Prédictions Ab initio. Pour chaque génome nous calibrons et nous utilisons plusieurs programmes de prédictions de gènes qui utilisent comme information des propriétés statistiques des gènes protéiques connus de l’espèce. La calibration s’effectue au préalable à partir d’une collection de gènes connus.

2/ Exploitation de séquences codantes. Nous alignons l’ensemble des protéines publiques ainsi que des séquences d’ADNc disponibles pour des phylums reliés. Nous apportons plus de poids statistique aux collections d’ADNc de la même espèce, soit publiques, soit séquencées à Genoscope. L’alignement est effectué in fine avec des logiciels contraignant les jonctions d’exons à des sites compatibles avec des bordures d’épissage.

L’ensemble de ces prédictions est « réconcilié » de façon à ne retenir qu’un seul « modèle de gène » par locus. Cette étape est réalisée en exploitant les possibilités d’utilisation du programme Gaze . Cet outil intègre un ensemble d’informations pondérées qui alimentent un automate que nous adaptons. Par programmation dynamique, cette étape garantit de rendre pour chaque séquence une ensemble de modèles de gènes sans rupture de phase et dont le score est maximum.


Visualisation

Les résultats des différentes analyses sont stockées dans une base de donnée et sont accessibles par les collaborateurs par une interface dédiée, un navigateur GGB (Generic Genome Browser) . 

 



(Extrait du GGB de la vigne)
Annotation d’un locus du K11 de la vigne.

  


Duplications du génome de Paramecium ​​tetraurelia


La séquence du génome du macronoyau de la paramécie conserve de façon spectaculaire la trace d’au moins 3 duplications totales de génomes qui se sont succédées dans l’évolution (cercles extérieurs, plus récents, vers intérieurs plus anciens). Alors que chez d’autres groupes évolutifs, il reste très peu de gènes dupliqués à la suite de duplications totales (poisson, plantes, levures), ici 24000 gènes, soit 68% du total, sont maintenus en 2 copies depuis la duplication la plus récente. Par ailleurs très peu de remaniements chromosomiques ont lieu car l’ordre des gènes est préservé. Ces caractéristiques, essentiellement le grand nombre de gènes dupliqués à trois moments évolutifs différents, montrent que la perte de gènes est fortement sous contrainte à court terme. En particulier l’effet de stochiométrie sur les gènes impliqués dans des interactions est fort. 

  

  Projets

  •  Tetraodon nigroviridis (GGB
  •  Paramecium tetraurelia (GGB
  •  Vitis vinifera (GGB
  •  Oikopleura dioica ( GGB
  •  Tuber melanosporum (GGB)​