Les réseaux neuronaux artificiels sont des systèmes informatiques en mesure d'ajuster automatiquement un très grand nombre de paramètres (appelés poids) durant l'entraînement. Ils sont ainsi capables d'apprendre des fonctions mathématiques complexes nécessaires à l'exécution de tâches données (classification, reconnaissance d'image, traduction, etc.).
Les
réseaux de neurones modernes, dotés de milliards de paramètres, sont si surparamétrés qu'ils peuvent « surapprendre » même des données aléatoires sans structure. Pourtant, entraînés sur des jeux de données ayant une structure, ils en apprennent les caractéristiques sous-jacentes pertinentes. Comprendre pourquoi la surparamétrisation n'entrave pas leur efficacité est un enjeu fondamental de l'intelligence artificielle.
Des chercheurs de l'IPhT ont proposé une solution à cette énigme. En combinant des techniques innovantes de physique théorique associées à une analyse statistique rigoureuse, ils ont montré que le surapprentissage et l'apprentissage de caractéristiques coexistent dans les réseaux surparamétrés mais qu'ils interviennent à des moments distincts de la dynamique d'entraînement (phénomène dit d'émergence d'une séparation des échelles de temps). Ce phénomène, qualifié de « séparation des échelles de temps », résulte de l'interaction entre l'algorithme d'entraînement et l'architecture du réseau, permettant un découplage entre apprentissage des caractéristiques et surapprentissage. Le découplage dynamique résultant entre apprentissage des caractéristiques et surapprentissage émerge de l'interaction entre l'algorithme d'entraînement et l'architecture des réseaux Plus le modèle est grand, plus cette séparation temporelle est importante. Comme l'apprentissage des caractéristiques survient avant le surapprentissage, ce scénario suggère un mécanisme fiable expliquant pourquoi et comment de vastes réseaux neuronaux surparamétrés fonctionnent tout en conservant leur efficacité.
Ce travail ouvre la voie à une meilleure compréhension de la dynamique d'entraînement des modèles d'apprentissage automatique modernes. Le scénario d'apprentissage correspondant pourrait également trouver des applications dans d'autres systèmes qui ont besoin d'extraire des informations et de s'adapter en conséquence, tels que les systèmes biologiques.
Les réseaux de neurones : un peu d'histoire
L'informatique prend ses racines dans les travaux pionniers d'Alan Turing. Dans les années 1930, le mathématicien conçu une machine programmable capable d'évaluer automatiquement des fonctions complexes à partir d'une entrée initiale. Très important : les instructions pour ces opérations, appelées algorithme (ou logiciel), doivent être fournies extérieurement à la machine et modifiées lorsque la tâche ou le calcul change. Cette séparation entre la « machine » et les « instructions » est l'architecture qui contrôle le fonctionnement des ordinateurs portables, smartphones et autres appareils via des codes, des programmes ou des applications.
Un changement de paradigme est observé dans les années 1950 lorsque des chercheurs suggèrent une architecture d'algorithmes à but ouvert qui apprendrait les instructions nécessaires directement à partir d'un vaste jeu de données d'entraînement. Prenons l'exemple d'un système qui traduit du texte d'une langue à une autre. Une façon de procéder est de coder un algorithme qui traduit chaque mot d'une langue à l'autre et réorganise les mots selon la syntaxe de la nouvelle langue. Cependant, les systèmes modernes fonctionnent en trouvant leur propre algorithme pour traduire le texte de manière autonome à partir d'un vaste ensemble d'exemples de textes traduits. Ceci est réalisé sans aucune notion externe de syntaxe ou de vocabulaire fournie au système. C'est l'essence même de l'apprentissage automatique (machine learning) et des réseaux de neurones.