Vous êtes ici : Accueil > Éditions & rapports > Big Bang et Big Data

Clefs CEA | Article | Astrophysique


Clefs CEA n°64 - Les voix de la recherche - Voyage au coeur du big data

Big Bang et Big Data

Les nouveaux projets internationaux comme le télescope spatial Euclid font entrer les cosmologistes dans l'ère du Big Data. Nos interrogations sur la matière noire ou l'énergie sombre, qui compose à elles deux 95 % du contenu notre Univers, nous imposent de nouveaux défis algorithmiques, computationnels et théoriques. Le quatrième concerne la recherche reproductible, concept fondamental pour la vérification et la crédibilité des résultats publiés.

Version détaillée de l'article paru dans le numéro de Clefs CEA n°64 - Voyage au coeur du big data. 

Publié le 13 juin 2017

Fonds diffus cosmologique

Le Big Data est considéré comme l'un des plus grands challenges et aussi comme une magnifique opportunité dans de nombreux domaines scientifiques, technologiques, et industriels. En cosmologie, il pourrait aider à résoudre les mystères de l'Univers voire mettre en défaut la théorie de la relativité d'Einstein. Mais le volume des données acquises pose de sérieux problèmes de calibration, d'archivage et d'accès comme d'exploitation scientifique des produits obtenus (images, spectres, catalogues...). Les données archivées de la future mission spatiale Euclid contiendront 150 pétaoctets  de données et le projet Square Kilometre Array (SKA) générera 2 téraoctets de données par seconde, avec 1 pétaoctet  par jour archivé.


Les défis algorithmiques et computationnels

Tout l'enjeu est d'analyser ces jeux de données avec des algorithmes capables de mettre en évidence des signaux à très faible rapport sur bruit et intégrant les méthodologies les plus avancées : techniques d'apprentissage, outils statistiques ou concepts provenant de l'analyse harmonique, récemment mise en honneur avec l'attribution du prix Abel à Yves Meyer (le père de la théorie des ondelettes).

Disposer de tels algorithmes est un véritable challenge pour les équipes dans les années à venir : leur capacité à y parvenir conditionne le retour scientifique de leur engagement dans les grandes missions internationales. 


De nouveaux domaines scientifiques

Ces défis ont permis de faire émerger une communauté de scientifiques issus de différents domaines (astrophysique, statistique, informatique, traitement du signal etc.). Objectif : promouvoir des méthodologies, développer de nouveaux algorithmes, diffuser les codes, les utiliser pour l'exploitation scientifique des données et former de jeunes chercheurs à l'interface entre plusieurs disciplines. Deux organisations ont été récemment créées, l'IAA (International Astrostatistics Association) et la commission 5 de l'IAU (International Astronomical Union) pour promouvoir l'astro-statistique et l'astro-informatique. Des laboratoires d'astro-statistique ont vu le jour aux Etats-Unis, en Grande-Bretagne (à l'Imperial College à Londres) et en France au CEA (le laboratoire CosmoStat au sein du Service d'astrophysique), ainsi qu'un centre d'astrophysique computationnel en 2016 à New York.


Le défi théorique

Pour comprendre la nature de l'énergie sombre et de la matière noire, et pour tester la relativité générale d'Einstein, il faut mesurer avec précision les paramètres du modèle standard de cosmologie, que l'on obtient à partir de données mesurées avec des télescopes spatiaux ou au sol.

Pendant longtemps, les erreurs sur l'estimation des paramètres cosmologiques provenaient d'effets stochastiques comme le bruit instrumental ou la variance cosmique liée à une couverture très partielle du ciel. D'où l'utilisation de détecteurs de plus en plus sensibles et l'observation de champs du ciel de plus en plus grands. Ces erreurs stochastiques diminuant, les erreurs systématiques sont devenues de plus en plus importantes.

L'illustration la plus marquante de ce phénomène a certainement été l'annonce de la découverte des ondes gravitationnelles primordiales en mars 2014 par l'équipe américaine BICEP. Il s'est avéré par la suite que le signal était bien réel, mais qu'il provenait en réalité de la poussière de notre galaxie. Une erreur de modélisation de l'émission de cette poussière avait laissé un signal résiduel dans les données.

En plus des erreurs stochastiques et systématiques, le Big Data génère un nouveau type d'erreur, les erreurs d'approximations. L'estimation de certaines valeurs étant difficile avec la technologie actuelle, des approximations sont introduites dans les équations, pour accélérer le temps de calcul ou obtenir une solution analytique. Maîtriser ces erreurs est donc essentiel pour dériver des résultats corrects mais nécessite un effort théorique significatif.  


Le défi de la recherche reproductible

Avec d'énormes volumes de données et des algorithmes très complexes, il devient souvent impossible pour un chercheur de reproduire les figures publiées dans un article. Or, la reproductibilité des résultats est au cœur de la démarche scientifique et constitue un des problèmes majeurs de la science moderne. D'où le principe qui consiste à publier, en plus des résultats, les codes sources qui ont servi à analyser les données et les scripts utilisés pour traiter les données et générer les figures. Ce principe, désormais crucial, est rigoureusement appliqué par le laboratoire CosmoStat du CEA. 

​Références

Le projet Euclid : https://www.euclid-ec.org

Le projet SKA : http://skatelescope.org

Astrostatistics and Astroinformatics Portal: http://asaip.psu.edu

Laboratoire CosmoStat : http://www.cosmostat.org

Image du fond diffus cosmologique : http://www.cosmostat.org/research/cmb/planck_wpr2

L'article du magazine en ligne Vox sur la recherche reproductible : http://www.vox.com/2016/7/14/12016710/science-challeges-research-funding-peer-review-process

"A Manifesto for Reproductible Science" http://www.nature.com/articles/s41562-016-0021

La charte de "Reproducible Science" www.nature.com/articles/s41562-016-0021/tables/1



​Les contributeurs de l'article

JeanLucStarck-web2.jpg
Jean-Luc Starck est directeur de recherche et chef du laboratoire CosmoStat au sein du Service d’astrophysique du CEA à l'Institut de recherches sur les lois fondamentales de l’Univers (Direction de la recherche fondamentale du CEA).




Les autres articles de Clefs


Les autres articles de Clefs CEA

Flux rss




Haut de page