Protéger les données d’apprentissage des réseaux de neurones

Adobestock _Skórzewiak.

L’apprentissage collaboratif, basé sur de nombreuses bases de données privées, permet d’entraîner très efficacement les intelligences artificielles… Mais comment partager de précieuses données en toute confidentialité ? Le CEA-List relève le défi avec une nouvelle méthode de construction collaborative de réseaux de neurones profonds sans divulgation des données d’apprentissage.

Publié le 5 octobre 2021

La phase d’apprentissage de réseaux de neurones nécessite de disposer de grandes quantités de données, parfois dispersées. Or, la confidentialité de ces informations, souvent sensibles (comme les données de santé), peut être menacée lors de la phase d’apprentissage et en phase d’exploitation du réseau (dite d’inférence).

Afin d’éviter ce double écueil, les chercheurs du CEA-List ont développé une méthode d’apprentissage avec confidentialité-par-construction, appelée SPEED (Secure, PrivatE, and Efficient Deep learning). Celle-ci repose sur trois principes :

« Partager le minimum de données ». Il s’agit ici de protéger les données durant l’apprentissage distribué entre les diverses entités contributrices. Avec SPEED, l’apprentissage distribué entre les entités se fait en échangeant uniquement des étiquettes chiffrées.

« Empêcher la rétro-ingénierie du réseau ». Lorsque le réseau construit est mis à disposition des utilisateurs finaux, il faut garantir qu’ils ne peuvent pas reconstruire les données d’origines par rétro-ingénierie, en observant le réseau. SPEED intègre donc un procédé de confidentialité différentielle, qui minimise les risques d’identification des données pour un coût de calcul négligeable.

Enfin, « Se prémunir des menaces sur l’intégrité du serveur ». Pour minimiser l’exposition des données, il est important de réduire les risques au niveau du serveur, voire de se passer d’un tiers de confiance. Grâce au chiffrement homomorphe (HE), le serveur d’agrégation fonctionne « en aveugle », uniquement sur des étiquettes chiffrées.

Ce travail a donné lieu à une publication dans le prestigieux journal Machine Learning. Il sera également présenté lors de la conférence phare sur l’apprentissage machine « European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases » (ECML-PKDD’21).

Haut de page

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Acteur majeur de la recherche, du développement et de l'innovation, le CEA intervient dans quatre grands domaines : énergies bas carbone, défense et sécurité, technologies pour l’information et technologies pour la santé.

CEA Tech Fr

Dans la même rubrique :

Protéger les données d’apprentissage des réseaux de neurones

Sur le même thème

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail

CEA Tech Fr

a propos de CEA TECH

Toutes les thématiques

Toutes les thématiques

Actualités

Dans la même rubrique :

Protéger les données d’apprentissage des réseaux de neurones

Sur le même thème

Naviguer dans le site

Commissariat à l'Énergie Atomique et aux Énergies Alternatives

Naviguer dans le portail