Résultat scientifique | Découvertes et avancées | Physique quantique

Dans la tête des réseaux de neurones modernes

Alors que les réseaux de neurones modernes comptent des milliards de paramètres, une question fondamentale se pose : comment parviennent-ils à conserver leur efficacité malgré la quantité considérable de données qu'ils absorbent ? Des chercheurs de l'IPhT (CEA-CNRS) ont mis en évidence un mécanisme temporel qui sépare l'apprentissage utile du surapprentissage. Ce scénario éclaire le fonctionnement réel de ces modèles « géants ».

Publié le 3 décembre 2025

Les réseaux neuronaux artificiels sont des systèmes informatiques en mesure d'ajuster automatiquement un très grand nombre de paramètres (appelés poids) durant l'entraînement. Ils sont ainsi capables d'apprendre des fonctions mathématiques complexes nécessaires à l'exécution de tâches données (classification, reconnaissance d'image, traduction, etc.).
Les réseaux de neurones modernes, dotés de milliards de paramètres, sont si surparamétrés qu'ils peuvent « surapprendre » même des données aléatoires sans structure. Pourtant, entraînés sur des jeux de données ayant une structure, ils en apprennent les caractéristiques sous-jacentes pertinentes. Comprendre pourquoi la surparamétrisation n'entrave pas leur efficacité est un enjeu fondamental de l'intelligence artificielle.

Des chercheurs de l'IPhT ont proposé une solution à cette énigme. En combinant des techniques innovantes de physique théorique associées à une analyse statistique rigoureuse, ils ont montré que le surapprentissage et l'apprentissage de caractéristiques coexistent dans les réseaux surparamétrés mais qu'ils interviennent à des moments distincts de la dynamique d'entraînement (phénomène dit d'émergence d'une séparation des échelles de temps). Ce phénomène, qualifié de « séparation des échelles de temps », résulte de l'interaction entre l'algorithme d'entraînement et l'architecture du réseau, permettant un découplage entre apprentissage des caractéristiques et surapprentissage. Le découplage dynamique résultant entre apprentissage des caractéristiques et surapprentissage émerge de l'interaction entre l'algorithme d'entraînement et l'architecture des réseaux Plus le modèle est grand, plus cette séparation temporelle est importante. Comme l'apprentissage des caractéristiques survient avant le surapprentissage, ce scénario suggère un mécanisme fiable expliquant pourquoi et comment de vastes réseaux neuronaux surparamétrés fonctionnent tout en conservant leur efficacité.

Ce travail ouvre la voie à une meilleure compréhension de la dynamique d'entraînement des modèles d'apprentissage automatique modernes. Le scénario d'apprentissage correspondant pourrait également trouver des applications dans d'autres systèmes qui ont besoin d'extraire des informations et de s'adapter en conséquence, tels que les systèmes biologiques.

Les réseaux de neurones : un peu d'histoire

L'informatique prend ses racines dans les travaux pionniers d'Alan Turing. Dans les années 1930, le mathématicien conçu une machine programmable capable d'évaluer automatiquement des fonctions complexes à partir d'une entrée initiale. Très important : les instructions pour ces opérations, appelées algorithme (ou logiciel), doivent être fournies extérieurement à la machine et modifiées lorsque la tâche ou le calcul change. Cette séparation entre la « machine » et les « instructions » est l'architecture qui contrôle le fonctionnement des ordinateurs portables, smartphones et autres appareils via des codes, des programmes ou des applications.

Un changement de paradigme est observé dans les années 1950 lorsque des chercheurs suggèrent une architecture d'algorithmes à but ouvert qui apprendrait les instructions nécessaires directement à partir d'un vaste jeu de données d'entraînement. Prenons l'exemple d'un système qui traduit du texte d'une langue à une autre. Une façon de procéder est de coder un algorithme qui traduit chaque mot d'une langue à l'autre et réorganise les mots selon la syntaxe de la nouvelle langue. Cependant, les systèmes modernes fonctionnent en trouvant leur propre algorithme pour traduire le texte de manière autonome à partir d'un vaste ensemble d'exemples de textes traduits. Ceci est réalisé sans aucune notion externe de syntaxe ou de vocabulaire fournie au système. C'est l'essence même de l'apprentissage automatique (machine learning) et des réseaux de neurones.

Lire plus sur le site de l'IPhT

Andrea Montanari and Pierfrancesco Urbani (2025) Dynamical Decoupling of Generalization and Overfitting in Large Two-Layer Networks. « The Thirty-ninth Annual Conference on Neural Information Processing Systems ». https://openreview.net/forum?id=ImpizBSKcu https://arxiv.org/abs/2502.21269

Haut de page

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans quatre grands domaines : énergies bas carbone, défense et sécurité, technologies pour l’information et technologies pour la santé.

Fabrique de savoirs

Dans la même rubrique :

Dans la tête des réseaux de neurones modernes

Références

Sur le même thème

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail

Fabrique de savoirs

La direction de la Recherche fondamentale

La recherche à la DRF

Les actualités de la DRF

Les ressources de la DRF

Rejoindre la DRF

Dans la même rubrique :

Dans la tête des réseaux de neurones modernes

Références

Sur le même thème

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail