En biologie, de nombreuses molécules d'ARN se comportent comme de véritables machines microscopiques. Parmi elles, les riboswitches agissent comme des capteurs biologiques : ils modifient leur forme 3D lorsqu'ils se lient à un métabolite spécifique (molécule issue de la dégradation totale ou partielle de certaines matières actives). Ce changement de forme agit comme un interrupteur moléculaire, capable d'activer ou de désactiver l'expression d'un gène situé en aval. Concevoir artificiellement de tels interrupteurs, à partir de zéro, ouvrirait de nouvelles perspectives pour la biologie synthétique, la conception de médicaments et le diagnostic moléculaire. Cependant, la conception d'une séquence capable de se replier de manière stable en deux formes différentes et de passer de l'une à l'autre est un défi extrêmement difficile à relever.
Une équipe pluridisciplinaire de chercheurs a récemment franchi une étape importante. En utilisant des méthodes d'apprentissage automatique, ils ont réussi à concevoir de nouveaux commutateurs d'ARN entièrement fonctionnels.
Pour cela, les chercheurs ont utilisé un modèle informatique appelé machine de Boltzmann restreinte. En l'entraînant sur des milliers de séquences d'ARN naturelles, le modèle a appris à reconnaître les règles qui permettent à ces molécules de se replier correctement. Il est notamment capable d'identifier des interactions complexes entre différentes parties de l'ARN, y compris des interactions secondaires et tertiaires essentielles*, que des méthodes plus simples ne parviennent pas à détecter.
Un riboswitch agit comme un capteur biologique, changeant sa forme 3D d'un état « ON » (à gauche) à un état « OFF » (à droite) lorsqu'il se lie à un métabolite (SAM, hexagone violet). Les chercheurs du CNRS ont utilisé un modèle d'apprentissage automatique pour apprendre les règles de conception de ce commutateur, ce qui leur a permis de créer, à partir de zéro, des molécules artificielles fonctionnelles entièrement nouvelles.
Grâce à ce modèle, 476 nouvelles séquences d'ARN ont été générées, dont certaines différaient jusqu'à 40 % des séquences naturelles connues. Ces séquences ont été synthétisées puis testées expérimentalement à l'aide de techniques de sondage chimique à haut débit. Les résultats sont remarquables : environ un tiers des séquences les mieux classées se sont révélées être des commutateurs efficaces, capables de changer de conformation en réponse au métabolite cible (SAM), à l'image de leurs homologues naturels.
Ce travail représente une avancée significative dans la conception rationnelle de biomolécules allostériques, capables de changer de structure spatiale. Il montre comment des modèles génératifs, à l'interface entre la physique statistique et l'intelligence artificielle, peuvent non seulement décrypter le langage complexe de la biologie, mais aussi l'exploiter pour écrire de nouveaux « codes » moléculaires fonctionnels, ouvrant la voie à des outils biologiques conçus sur mesure.
*Les contacts tertiaires désignent des interactions particulières entre des sites éloignés le long de la séquence qui se retrouvent proches dans l'espace lorsque la molécule d'ARN est repliée.