kmindex : un nouvel outil pour l’exploration massive des données de séquences

Canva (IA)

Dans une étude publiée dans Nature Computational Science, les chercheurs du Genoscope en collaboration avec l'IRISA (INRIA) et l'Institut Méditerranéen d'Océanologie, présentent kmindex, un outil efficace qu'ils ont créé pour interroger rapidement d'énormes ensembles de données génomiques.

Publié le 4 mars 2024

Les données génomiques publiques connaissent une croissance exponentielle depuis ces dernières années. Leur contenu représente un fond scientifique d'envergure pour faire avancer les recherches dans différents domaines tels que la santé, l'agronomie ou encore l'écologie. Bien qu'elles contiennent jusqu'à plusieurs pétaoctets de données brutes de séquençage, ces ressources sont rarement réutilisées en raison de l'absence de moyen efficace pour interroger leurs données dans leur ensemble.

C'est dans ce contexte que des chercheurs de l'IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires) de l'INRIA, en collaboration avec le Genoscope et le MIO (Institut Méditerranéen d'Océanologie), ont développé un nouvel outil informatique d'indexation et de requêtage des séquences génomiques, kmindex, dont les performances et la rapidité rendent accessibles de vastes ensembles de données génomiques.

Ils ont utilisé des k-mers (sous-séquence de longueur k extraite d'une séquence plus longue d'ADN ou d'ARN) comme élément unitaire. Lorsqu'une séquence génomique est requêtée, le nombre de k-mers partagées entre la séquence interrogée et les échantillons indexés est utilisé pour signaler des correspondances significatives. Cette solution d'indexation a ainsi permis, via la mise en place d'un serveur web ORA (Ocean Read Atlas), d'interroger plusieurs dizaines de téraoctets de données de séquence issues du projet Tara Oceans (2009-2013). À l'aide d'une ou plusieurs séquences, il a été possible d'identifier la présence de séquences similaires sous forme de carte et de graphique interactifs dans les stations de prélèvement en fonction de leurs propriétés environnementales (température, salinité, oxygène, etc.). Il a été également possible, en étudiant des variants de gènes, de voir quelles contraintes environnementales contribuent à leur évolution.

Carte de la répartition biogéographique des séquences partageant les k-mers contenus dans la séquence du gène appelé nifH de l’espèce Pseudodesulfovibrio profundus(ORA/Institut Méditerranéen d'Océanologie)

L'utilisation de kmindex dans l'interface ORA a réduit de plusieurs ordres de grandeur le temps de traitement des requêtes tout en maintenant la qualité des résultats et en réduisant l'obtention de faux positifs.

Grâce à cette étude, publiée dans le journal Nature Computational Science, un nouveau jalon a été franchi concernant la prise en charge de projets génomiques d'envergure. Les fonctionnalités de ce nouvel outil d'indexation, kmindex, permettent de rendre accessible à la communauté scientifique de très grande quantités de données de séquençage.

Contact chercheur CEA : Eric Pelletier eric.pelletier@genoscope.fr

Voir aussi

Actualité CNRS Terre et Univers

Expédition Tara Océan : un Google de la génomique pour traiter la quantité de données collectées (Article Le Monde réservé aux abonnés)

Indexing and real-time user-friendly queries in terabyte-sized complex genomic datasets with kmindex and ORA | Nature Computational Science

Haut de page

Mots clés : séquençage | Tara Oceans | génome | écosystèmes marins | métagénomes | biodiversité | k-mer | kmindex | ORA

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans quatre grands domaines : énergies bas carbone, défense et sécurité, technologies pour l’information et technologies pour la santé.

Institut de biologie François Jacob

Dans la même rubrique :

kmindex : un nouvel outil pour l’exploration massive des données de séquences

Références

Mots clés : séquençage | Tara Oceans | génome | écosystèmes marins | métagénomes | biodiversité | k-mer | kmindex | ORA

Sur le même thème

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail

Institut de biologie François Jacob

Institut de biologie François Jacob

Départements et services

Infrastructures nationales en biologie et santé

Actualités

En Direct de l'IBFJ

Dans la même rubrique :

kmindex : un nouvel outil pour l’exploration massive des données de séquences

Références

Mots clés : séquençage | Tara Oceans | génome | écosystèmes marins | métagénomes | biodiversité | k-mer | kmindex | ORA

Sur le même thème

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail