Actualité | Résultat scientifique | Santé ＆ sciences du vivant | Génomique | Bioinformatique

Génomique et Big Data : le logiciel qui permettra d'y voir plus clair

Le CEA-IG et la société Biofacet développent un logiciel de traitement de données de séquençage à haut débit qui vise à produire une plateforme logicielle de stockage, d'organisation et d'interrogation de variants de séquences issus de données sur des génomes complets.

Publié le 10 octobre 2016

Si les programmes de séquençage se développent de manière soutenue, force est de constater que la masse des données accumulée reste difficilement exploitable pour la communauté scientifique. L'explosion de cette production, couplée à la spécificité du domaine, empêche les technologies classiques de base de données d'opérer de manière efficace. Paradoxalement, la masse de connaissance accumulée sur les myriades de projets nationaux ou internationaux génère le propre frein à son exploitation. Ainsi, il n'existe pas de système capable d'exploiter finement et/ou de croiser massivement des données de variants de séquences. Ces variants sont des mutations pouvant contribuer au développement d'une pathologie. Repérer les variants d'un génome, recouper à grande échelle des séquences pour déceler des profils de variants communs constitue un outil de recherche puissant, ainsi qu'une aide au diagnostic et à la prise en charge des patients.

Face aux limites vites atteintes des systèmes actuels, le CEA et Biofacet ont développé les spécifications d'un système de gestion de base de données capable de stocker et d'interroger à très grande échelle des banques de données nationales ou internationales de variants provenant de séquençage d'exomes ou de génomes complets (WGS : Whole genome Sequencing),. La technologie résultante, implantée dans le logiciel Biofacet™, permet d'agréger et d'interroger des études sur des milliers d'échantillons. Par un couplage optimisé entre données numériques et symboliques, la technologie développée permet plus précisément :

l'interrogation « profonde » des données, i.e. la possibilité d'établir des requêtes sur la totalité des valeurs produites par les SNP-callers - « read-depths, genotype quality, allele-frequency», etc. - et ce pour chaque position du génome (3 milliards de nucléotides pour le génome humain) ;
l'interrogation « sémantique » génotype-phénotype;
l'ajout incrémental d'échantillons.

Ce projet a fait l'objet d'un communiqué de presse.

Haut de page

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans quatre grands domaines : énergies bas carbone, défense et sécurité, technologies pour l’information et technologies pour la santé.

Fabrique de savoirs

Dans la même rubrique :

Génomique et Big Data : le logiciel qui permettra d'y voir plus clair

Sur le même thème

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail

Fabrique de savoirs

La direction de la Recherche fondamentale

La recherche à la DRF

Les actualités de la DRF

Les ressources de la DRF

Rejoindre la DRF

Dans la même rubrique :

Génomique et Big Data : le logiciel qui permettra d'y voir plus clair

Sur le même thème

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail