Vous êtes ici : Accueil > Actualités > Le risque de faire mentir les données, malgré elles

Résultat scientifique | Informatique | Protéomique

Le risque de faire mentir les données, malgré elles


Triturer des données au détriment des règles statistiques ? L'Irig propose des étapes de contrôle pour la protéomique.

Publié le 16 octobre 2019

​Des chercheurs de l'Irig se sont penchés sur les risques de manipulation inintentionnelle des données en recherche, en particulier en protéomique. La protéomique consiste à étudier l’ensemble des protéines d’un organisme, d’un fluide biologique, d’un organe, ou d’une cellule, car seul le génome ne suffit pas.
De nombreux outils bioinformatiques et biostatistiques fleurissent régulièrement dans la littérature, avec la promesse de pouvoir dépasser la triple limite des big proteomics data : leur grande taille, leur grande dimensionnalité, et leur grande complexité. Cependant, la simplicité qu’offrent ses outils ne saurait masquer la nécessité d’un minimum de compréhension théorique pour une utilisation et des résultats corrects.
C’est avec cet objectif que des chercheurs de l’Irig ont réalisé ces dernières années un effort particulier dans la divulgation de bonnes pratiques en science des données pour la protéomique. Ils ont ainsi publié une introduction à la théorie du FDR (False Discovery Rate, une mesure de contrôle qualité omniprésente), ils ont désambiguïsé un ensemble de termes ayant des significations différentes en intelligence artificielle et en chimie analytique, et ont également proposé cinq étapes de contrôle permettant d’améliorer la qualité d’une analyse protéomique différentielle entre plusieurs échantillons.

Unintentional p-value hacking 
« Il y a trois types de mensonges : les mensonges, les sacrés mensonges et les statistiques ». Cette phrase de Benjamin Disraeli trouve son origine dans un usage inadapté des outils statistiques , dans le but de cautionner une intuition ou une conviction. Bien que décriée, cette pratique a malheureusement son pendant en recherche : le p-value hacking, qui  consiste à triturer les données jusqu’à obtenir la significativité désirée pour une hypothèse testée, au détriment de certaines règles statistiques qui s’en trouvent violées. Le plus souvent, cela est fait en toute bonne foi puisque l’objectif est de tirer le meilleur parti possible des données tout en se conformant aux exigences de publication. Malgré tout, il est indispensable de limiter cette pratique qui engendre de nombreuses fausses découvertes.

Haut de page