Le radio-télescope chinois FAST produit tellement de données qu’il faut les dégrader

télescope FAST
Le radiotélescope FAST


Le radio-télescope chinois FAST (Five-hundred-meter Aperture Spherical radio Telescope) vient de démarrer ses opérations. Mais pour scanner le ciel à la recherche de pulsars, il génère tellement de données qu'il faut les dégrader pour les analyser sur le long terme.

Dans un article scientifique récent, les Dr Yue et Li expliquent que le radiotélescope FAST a un souci de « Big Data ». Mais contrairement à d'autres et leurs milliers de points d'entrée, leurs données viennent toutes d'une seule source : le réseau de 19 détecteurs en bande L de leur instrument FLAN, qui est utilisé pour scanner le ciel à la recherche de nouveaux pulsars. Ces événements astronomiques émettent à intervalles réguliers, parfois aussi faibles que 0,1ms, et leur signaux sont régulièrement enfouis au sein d'un important bruit de mesure : il faut utiliser des procédés mathématiques (les étudiants universitaires reconnaîtront les transformées de Fourier) pour les isoler. Mais tout cela nécessite du temps de calcul, sur d'importants sets de données.

La loi de Moore ne pardonne pas

Le radio-télescope Parkes, utilisé pour scanner le ciel depuis août 1997, produit des données au rythme de 0.64 Mo/s, et ses jeux de données sur une année atteignent 4 To, ce qui est « trivial » à analyser pour un ordinateur moderne selon les chercheurs chinois. Leur télescope cependant, entré en opérations en septembre 2019, ne joue plus dans la même catégorie : il enregistre les signaux radio sur 38 canaux, un milliard de fois par seconde. Soit 38 Go/s de données qu'il faut ensuite transformer pour analyse ! Impossible de les stocker sans investir dans un impressionnant système dédié uniquement au transfert des données, et impossible à traiter sans un super-ordinateur de premier plan.

Pulsar set
Voici à quoi ressemble la recherche d'un pulsar (qui pour l'exemple ressort assez bien en jaune)


Pulsars, haut débit

Selon les auteurs, il y avait deux méthodes à portée de main : développer un système d'IA capable d'analyser les données à la recherche de pulsars « à la source », ou bien dégrader les données pour les enregistrer et se laisser une chance de les analyser plusieurs fois avec la communauté nationale et internationale. Ils ont choisi cette seconde option. D'abord en réduisant les capacités de la prise d'échantillons (aucun pulsar ne nécessite un milliard de données par seconde pour être détecté), ensuite en dégradant la résolution des données. En deux temps, leurs travaux ont d'abord réduit le jeu de données à « seulement » 200 Pétaoctets/an, avant de faire d'autres concessions sur les données et d'obtenir un volume honorable de 12 Pétaoctets/an.
La recherche sur les pulsars, qui devrait profiter de FAST pour faire un important bond en avant, garde donc une grosse réserve de performance liée... A son système de données.

Source : Arxiv.org.
Modifié le 15/11/2019 à 14h00
Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
10
9
Voir tous les messages sur le forum

Actualités du moment

Qobuz dit au revoir aux MP3 et rend plus accessible le streaming haute résolution
Amazon conteste le contrat de 10 milliards de dollars signé entre Microsoft et le Pentagone
Besoin d'une souris pour jouer sans vous ruiner ? Razer Basilisk à 39,99€ au lieu de 69,99€ chez Darty
Salesforce choisit Microsoft Azure pour son service Marketing Cloud
Qobuz dit au revoir aux MP3 et rend plus accessible le streaming haute résolution
Après la Radeon Pro 5300M sur MacBook Pro 16, AMD ajoute les Radeon RX 5300M à son lineup
Reportage : VR, son, data, l'Orange Vélodrome devient le premier stade connecté en 5G de France
Des chercheurs d'Harvard trouvent un moyen de booster la vitesse de l'impression 3D
Taïwan interdit la vente des smartphones Huawei qui situent Taïwan en Chine
Haut de page