Réduire les faux positifs en protéomique et en biologie des omiques de manière rigoureuse et flexible

Crédit CEA

Credit CEADes chercheurs de l’Irig adaptent des théories issues des statistiques en grande dimensionnalité pour affiner la sélection de biomarqueurs candidats en protéomique et en biologie des omiques.

Publié le 14 mai 2024

L’amélioration des technologies de caractérisation moléculaire à grande échelle des échantillons biologiques est à double tranchant. D’un côté, cet accès fiable et rapide à des milliers de gènes, transcripts, protéines ou métabolites offre la possibilité de vérifier un nombre considérable d’hypothèses concernant le fonctionnement du vivant. D’un autre côté, la multiplication des hypothèses étudiées simultanément augmente le risque que l’une d’entre elles soit validée par hasard et à tort (une fausse découverte). Cette augmentation est d’origine combinatoire : la probabilité est faible qu’une molécule prise au hasard subisse des fluctuations de mesures correspondant exactement aux attentes induites par l’hypothèse étudiée. En revanche, si plusieurs milliers de biomolécules sont étudiées simultanément, la probabilité qu’au moins l’une d’entre elles se comporte ainsi devient importante.

Pour contrôler le risque de fausses découvertes, des méthodes statistiques avancées sont nécessaires car les plans d’expérience deviennent de plus en plus élaborés. C’est notamment le cas en protéomique, où la complexité de la mesure réalisée (grâce au couplage de la spectrométrie de masse et de la chromatographie liquide) vient s’ajouter au faible nombre d’échantillons qu’il est généralement possible d’analyser. Depuis de nombreuses années, des chercheurs de l’Irig travaillent donc sur l’articulation des contraintes expérimentales et des hypothèses théoriques nécessaires au contrôle des fausses découvertes, afin de proposer des chaînes d’analyses de données dotées d’un contrôle qualité rigoureux (ex : www.prostar-proteomics.org). Leurs récents travaux se sont concentrés sur la théorie des filtres « Knockoffs » qui a révolutionné le champ de l’inférence sélective en proposant de s’appuyer sur des tirages aléatoires pour mieux caractériser les propriétés des fausses découvertes. Ils ont notamment fait le lien entre ces filtres et les méthodes empiriques de contrôle des fausses découvertes historiquement utilisées par les protéomiciens, ce qui permet de proposer de nouvelles manières de travailler [1, 2].

Figure : Un « volcano-plot » typique, représentant par des points oranges les protéines analysées, et pouvant potentiellement expliquer une différence de phénotype (par exemple sain ou malade) en fonction de leur significativité (en ordonnée) et de l’importance de l’effet mesuré (en abscisse). Les biomarqueurs candidats les plus pertinents sont généralement situés près des deux coins supérieurs, mais certains peuvent se trouver plus bas et au milieu, ce qui complique la sélection. Les filtres Knockoffs permettent de contrôler le taux de fausses découvertes associé à une sélection des protéines (en vert) suivant une frontière de décision plus flexible, notamment hyperbolique (représentée ici en bleu) ce qui permet de tenir compte à la fois de l’effet et de la significativité. Crédit CEA

Avec le soutien financier de l’ANR :

Projet Multidisciplinary Institute in Artificial Intelligence (MIAI @ Grenoble Alpes)
Le programme GRAL via Chemistry Biology Health Graduate School at University Grenoble Alpes
ProFI (Proteomics French Infrastructure)

Protéomique : Caractérisation (identification et quantification) à large échelle des protéines présentes dans un échantillon biologique.
Inférence sélective : Domaine des statistiques en grande dimensionnalité qui s’intéresse à la généralisation de connaissances tirées de données expérimentales alors que ces données ont été préalablement sélectionnées en raison de leurs spécificités.

[1] Burger T.
Fudging the volcano-plot without dredging the data
Nature Communications 2024

[2] L. Etourneau L and Burger T.
Challenging targets or describing mismatches? A comment on Common Decoy Distribution by Madej et al.
Journal of Proteome Research 2022

Haut de page

Mots clés : protéomique

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans quatre grands domaines : énergies bas carbone, défense et sécurité, technologies pour l’information et technologies pour la santé.

lnstitut de recherche interdisciplinaire de Grenoble (Irig)

Dans la même rubrique :

Réduire les faux positifs en protéomique et en biologie des omiques de manière rigoureuse et flexible

Références

Mots clés : protéomique

Protéomique

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail

lnstitut de recherche interdisciplinaire de Grenoble (Irig)

Institut de recherche interdisciplinaire de Grenoble

Les départements de l'Institut

Laboratoires/UMR de l'Institut

Plateformes et plateaux techniques

Actualités

Dans la même rubrique :

Réduire les faux positifs en protéomique et en biologie des omiques de manière rigoureuse et flexible

Références

Mots clés : protéomique

Protéomique

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail