Vous êtes ici : Accueil > Actualités > kmindex : un nouvel outil pour l’exploration des données massives de séquençage génomique

Découvertes et avancées | Résultat scientifique | Métagénomique | Bioinformatique | Océanographie | Biodiversité

kmindex, un nouvel outil pour l’exploration des données massives de séquençage génomique


​Des chercheurs du Genoscope en collaboration avec l'Inria et l'Institut méditerranéen d'océanologie, ont développé l'outil kmindex qui permet d'interroger rapidement d'énormes ensembles de séquences métagénomiques. Application aux données de Tara Oceans, désormais en libre accès.
Publié le 20 mars 2024

​Les données génomiques publiques connaissent une croissance exponentielle ces dernières années. Ce fonds inestimable pour la recherche (santé, agronomie, écologie) est cependant sous-exploité faute d'outil efficace pour y retrouver des séquences d'intérêt.

Dans ce contexte, des chercheurs de l'Inria, en collaboration avec le Genoscope (Jacob) et l'Institut méditerranéen d'océanologie, ont développé une nouvelle approche permettant d'indexer des milliers de métagénomes et de retrouver rapidement une séquence dans l'ensemble des données. L'outil informatique (kmindex) recense les sous-séquences génomiques de longueur k (k-mers), extraites des séquences plus longues d'ADN ou d'ARN à indexer, puis comptabilise les k-mers communs aux échantillons indexés et à la séquence qui fait l'objet d'une requête.

En particulier, kmindex a indexé avec succès 1 393 échantillons de métagénome d'eau de mer, recueillis par le consortium Tara Oceans entre 2009 et 2013. Il est désormais possible d'interroger en temps réel ces dizaines de téraoctets via le serveur web ORA (Ocean Read Atlas), en libre accès.

Résultat : la construction de l'index est dix fois plus rapide qu'auparavant et les temps de recherche sont divisés par cent. Avec des taux de faux positifs négligeables inférieurs à 0,01 %, kmindex surpasse en précision les techniques existantes de quatre ordres de grandeur.

Il est désormais possible de cartographier la présence de séquences identiques et de la croiser avec l'environnement des stations de prélèvements (température, salinité, oxygène, etc.) à l'aide de graphiques interactifs. Il est également possible d'identifier les contraintes environnementales favorisant l'apparition de tel ou tel variant de gènes.

Lire l'actualité du CNRS.



Haut de page