Eviter les hallucinations de l’IA dans la recherche en biologie

L'intelligence artificielle générative est de plus en plus utilisée dans la recherche, cependant elle produit parfois des hallucinations. Comment empêcher les découvertes scientifiques de se retrouver ainsi corrompues ?

Publié le 25 février 2026

L'avènement récent de l'intelligence artificielle générative* a déjà révolutionné nos vies et nos sociétés, grâce à des outils tels que Chat-GPT ou Gemini. Pour l'instant, l’IA générative est utilisée essentiellement pour générer des données multimédias (édition de texte, résumé, retouche photo, génération de vidéos, etc.). Cependant, dans un avenir proche, elle pourra aussi générer des données plus techniques, telles que celles produites expérimentalement dans les laboratoires de recherche universitaires. Cela aura des conséquences sans précédent sur la production de connaissances scientifiques, qu'il convient d'anticiper, notamment parce que l’IA peut halluciner*.

La complexité de la biologie moléculaire est telle que dans la masse des données correspondantes de minuscules hallucinations pourraient passer inaperçues, conduisant à des conclusions erronées (par exemple, un biomarqueur inexistant) avec des conséquences dévastatrices, telles que la corruption de la littérature scientifique ou telles que le financement d'essais cliniques sans intérêt. Cependant, interdire l'IA générative dans la recherche scientifique priverait les communautés scientifiques et médicales d'outils puissants. Pour faire face à ce dilemme, les chercheurs du CEA-Irig ont proposé de répertorier divers cas d'utilisation où l'IA peut être utilisée en toute fiabilité grâce à une politique d'atténuation des risques adéquate. Leurs travaux présentent une dizaine de cas d'usage classés en trois catégories : i) La génération de nouvelles hypothèses, ii) la génération de nouvelles données et iii) l’amélioration des logiciels de biologie computationnelle.

Figure : exemple de cas d'usage.

Compléter une cohorte en générant des données supplémentaires sur des patients dans le groupe de patients malades (en vert ou groupe « test ») serait très risqué, car toute hallucination non détectée conduirait à une représentation biaisée de la maladie. À l'inverse, compléter le groupe de patients sains (en rouge) qui sert de contrôle dans l'étude peut être conforme à une politique d'atténuation des risques : premièrement, parce que les hallucinations non détectées entraîneraient ici une plus grande diversité au sein du groupe de contrôle, ce qui est connu pour être un moyen efficace de limiter les risques de fausses découvertes. Ensuite, parce que les patients sains ont été admis plus fréquemment dans les études de cohorte, de sorte que les données potentiellement disponibles pour entraîner l'IA sont plus importantes, plus robustes et plus cohérentes. Cet exemple illustre comment un algorithme d’IA générative donné, adapté à une tâche donnée, peut être utilisé de différentes manières, avec une exposition différente aux risques induits par les hallucinations.

Bien qu'elles ne soient pas exhaustives, ces utilisations constituent une première base pour une intégration correcte de l'IA générative dans la démarche scientifique, car elles incitent les chercheurs à adopter un regard critique sur son utilisation.

*Intelligence Artificielle Générative fait référence à des algorithmes qui sont capables non seulement d'analyser des données et de prendre des décisions ou de faire des prédictions, comme les outils classiques d'intelligence artificielle (IA), mais qui peuvent également générer de nouvelles données.

*Hallucinations : se produisent lorsqu'une IA générative répond à une requête (aussi appelée « prompt ») en générant des détails qui semblent plausibles à certains égards, mais qui sont soit erronés (par exemple, une référence à un article inexistant), soit impossibles selon certaines contraintes du monde réel qui sont ignorées par l'IA générative (par exemple, le président américain Abraham Lincoln commentant l'internet, comme dans l'illustration en tête d'article).

Tutelles UMR : UGA, CEA, CNRS et INSERM

Financements : Projets Agence Nationale de la Recherche : ProFI ; GRAL CBH ; France 2030 ; PeptidOMS ; ProteoVir.

BURGER T.
Keeping generative artificial intelligence reliable in omics biology
Patterns 2026

Haut de page

Mots clés : intelligence artificielle | IA

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans quatre grands domaines : énergies bas carbone, défense et sécurité, technologies pour l’information et technologies pour la santé.

lnstitut de recherche interdisciplinaire de Grenoble (Irig)

Dans la même rubrique :

Eviter les hallucinations de l’IA dans la recherche en biologie

Références

Mots clés : intelligence artificielle | IA

IA

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail

lnstitut de recherche interdisciplinaire de Grenoble (Irig)

Institut de recherche interdisciplinaire de Grenoble

Les départements de l'Institut

Laboratoires/UMR de l'Institut

Plateformes et plateaux techniques

Actualités

Dans la même rubrique :

Eviter les hallucinations de l’IA dans la recherche en biologie

Références

Mots clés : intelligence artificielle | IA

IA

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail