Le super-ordinateur le plus puissant du monde est japonais et mû par ARM

24 juin 2020 à 11h53
22
Superordinateur

Beaucoup plus performant que tous les autres super-ordinateurs dans le monde, il est basé sur les processeurs ARM et porte le nom de Fugaku.

La première place de ce super-ordinateur dans le Top 500 mondial témoigne de l'arrivée d'une nouvelle architecture dans la course.

2,8 fois plus performant que Summit

Installé à Kobé, au Japon, par la firme Riken, Fugaku a affiché une performance de l'ordre des 415,5 pétaflops au benchmark Linpack, avec des pics à 513 pétaflops. En d'autres termes, cela représente 415,5 millions de milliards d'opérations en virgule flottante par seconde. En simple précision, l'ordinateur a même dépassé la barre de l'exaflops, c'est-à-dire le milliard de milliards d'opérations.

Fugaku est ainsi nettement plus rapide que Summit , l'ordinateur d'IBM désormais second dans le classement mondial. Celui-ci n'a affiché « que » 148,6 pétaflops au benchmark.

Il faut toutefois souligner que le nouvel ordinateur de Riken a aussi davantage de matériel à sa disposition pour afficher ces performances. Il réunit quasiment 152 064 SoC A64FX. Chacun rassemble 48 coeurs Fujitsu cadencés à 2,0 Ghz avec boost à 2,2 Ghz et 32 Go de mémoire HBM2, l'ensemble totalisant donc quasiment 7,3 millions de coeurs CPU.

La fin d'un monopole

Fugaku attire également les regards parce qu'il n'est pas basé sur l'architecture x86 d'Intel, jusqu'à présent omniprésent dans la course aux super-ordinateurs. Suite à un choix décidé en 2016, Fugaku est basé sur ARM, une architecture développée par la société du même nom.

Apple a également amorcé une transition pour certaines gammes de produits vers cette architecture. Le début de la fin pour l'architecture x86 ? Intel cherchera à se défendre.

L'enseigne a récemment déclaré qu'Aurora, un prochain prétendant au titre serait le premier en son genre à franchir la barre de l'exaflop, bien que celui-ci ne soit pas attendu avant 2021. Ce cap avait déjà été franchi auparavant par le projet Folding@home . Il s'agit toutefois d'un projet collaboratif visant à aider la recherche contre le coronavirus, et non d'un super-calculateur. Il n'a donc pas été retenu au Top 500.

Sources : Tom's Hardware

Soyez toujours courtois dans vos commentaires.
Respectez le réglement de la communauté.
22
16
nicgrover
Ça donne quoi pour les jeux vidéo ? OK je sors…
Vanilla
Vous pourriez aussi préciser qu’à lui tout seul, ce super calculateur japonais représente environ 60% de la totalité de la puissance de TOUS LES super calculateur américains figurants dans le top 500 !! (Ils sont plus de 120 ou 140 au total, je n’ai pas le chiffre exact sous la main)<br /> C’est tout simplement énorme et ça montre à quel point l’augmentation à chaque nouveau top1 est gigantesque par rapport aux anciens…
Vanilla
Ça fait tourner crysis en 1080p à 120 fps XD
nicgrover
Wouaah… J’en veux un…
c_planet
Personne n’a pensé à le lancer une petite heure à la recherche d’ un modèle gouvernemental et fiscal efficace ?
Zakalwe
x86 est vieux et gourmand. Même si Intel s’essaie au chiplet, pas sûr qu’il y réussissent comme ARM.
bmustang
il sera vite dépassé par un certain CRAY d’ici là !?
LeToi
Ç’eut pu être sympa de connaître la finalité et l’usage de ce super ordinateur !
Vanilla
Ça paraît évident. Résoudre des sudoku.
cirdan
Est-ce qu’un connaisseur du sujet pourrait expliquer en quoi l’architecture ARM serait plus performante que la X86 ? Un petit topo là-dessus manque dans l’article.
tsiolkovski
Enfin le monopole d’Intel c’est vite dit… Le précédent TOP1 c’était Summit d’IBM en architecture POWER donc RISC !<br /> Et parler du prix ça permet aussi de remettre en perspective le fait que, bien qu’il soit plus efficient et efficace, il coute 900 millions de dollars (avec la R&amp;D si je comprends bien) alors qu’un Summit coute 3 ou 4 fois moins.
SlashDot2k19
Quid de la consommation ? (28 335 kW)<br /> Sinon avec un casque de VR, on peut faire la matrice!
tfpsly
x86 est vieux et gourmand.<br /> Est-ce qu’un connaisseur du sujet pourrait expliquer en quoi l’architecture ARM serait plus performante que la X86 ?<br /> Elle ne l’est pas.<br /> Fugaku: 158 976 nodes ARMv8.2 * 52-cores = 8 266 752 coeurs CPU.<br /> Summit: 9 216 nodes Power9 * 22 cores = 202 752 coeurs CPU + 27648 GPU Nvidia Tesla<br /> Tianhe-2: 32 000 Xeon E5 * 12 cores + 48 000 Xeon Phi = 432 000 coeurs CPU<br /> Fugaku: 415.5PF = 0.05 TF/coeur sur ARM<br /> Summit: 148.6PF (difficile de savoir la part des GPUs) = entre 0.06 (si 1 pipe shader GPU = 1 coeur CPU) et 0.73 (en ignorant les GPU) TF/coeur sur Power<br /> TH2: 61.5PF = 0.14TF/coeur sur x86-64<br /> Bref, les AMD restent bien plus lents. Il a fallut en aligner:<br /> 40x plus que les Power9 de Sumit (mais j’ignore la part des GPUs dans les perfs PF de ce superordi) pour faire 2.5x fois mieux;<br /> 20x plus de coeurs CPU que TH2 (x86-64 Ivy Bridge) pour faire seulement 6,5x mieux.<br /> tsiolkovski:<br /> Enfin le monopole d’Intel c’est vite dit… Le précédent TOP1 c’était Summit d’IBM en architecture POWER donc RISC !<br /> +1. Pour le moment, le Top500 est mené par : Fugaku (Amd), Summit et Sierra (Power9), Sunway TaihuLight (SW26010), puis enfin TH2, HPC5, Selene, Frontera (en x86-64).<br /> Ah, et une remarque sur le Top500 : il ne contient évidemment que les superordinateurs aux specs et benchmark connus publiquement. Il est possible que d’autres super-ordinateurs non connus du public existent (dans des secteurs secret comme le militaire, ou des entreprises ne publiant rien sur ce sujet).
Nmut
Je ne suis pas un grand spécialiste, mais j’ai fait des projets sur différentes plateformes et j’ai noté quelques différences. Les ARM sont un peu moins énergivore, ce qui est très intéressant dans ce genre d’engin qui consomme comme une ville. Par contre la puissance brute par coeur des processeurs X86, et dans certains cas encore plus des PowerPC est largement supérieure. Après, si tu ne fais que des opération basiques, l’ARM est vraiment un champion par watt.<br /> En gros:<br /> calculs complexes (simulations scientifiques) =&gt; GPU<br /> calculs généralistes (on ne sait pas à quoi in destine la machine) =&gt; x86 ou PowerPC<br /> calculs relativement simples (serveurs web, multimédia embarqué) =&gt; ARM<br /> Cependant, les différences ne sont pas très marquées, les consos, les jeux d’instructions et les perfs se rapprochent de plus en plus (à part certains calculs particuliers bien plus performants sur GPU), donc rien n’empêche de prendre un type de proc ou un autre.<br /> Pour complexifier le tout, les TFlops annoncées ne veulent pas dire grand chose, avec 2 bécanes de même «&nbsp;puissance&nbsp;» mais architecturées différemment, l’une pourrait fournir des résultats 10x plus vite sur des algos spécifiques.<br /> Edit: belle démo de @Sly
tfpsly
Nmut:<br /> Les ARM sont un peu moins énergivore, ce qui est très intéressant dans ce genre d’engin qui consomme comme une ville. Par contre la puissance brute par coeur des processeurs X86, et dans certains cas encore plus des PowerPC est largement supérieure. Après, si tu ne fais que des opération basiques, l’ARM est vraiment un champion par watt.<br /> […]<br /> Pour complexifier le tout, les TFlops annoncées ne veulent pas dire grand chose, avec 2 bécanes de même « puissance » mais architecturées différemment, l’une pourrait fournir des résultats 10x plus vite sur des algos spécifiques.<br /> +1. Les ARMs sont les champions de la perf/watt. Mais sont bien derrière en performances pures.<br /> Gros avantages des x86 : bien meilleure gestion du cache mémoire, exécution out-of-order des instructions (quand des instructions sont indépendantes, les suivantes sont exécutées en parallèle d’une instruction plus lente), prédiction des test/branchements/boucles bien meilleures.<br /> Le Power : également très performant en exécution comme le x86, mais sans la gestion du cache et l’exécution out-of-order. Le compilo et le programmeurs doivent faire plus attention.<br /> Et le problème majeur et de plus en plus important dans beaucoup de domaines est la bande passante mémoire, loin derrière les performances des CPUs. En gros, un CPU peut exécuter 100 instructions dans le même temps que prend un seul accès mémoire. Si chaque instruction doit accéder à la mémoire, le programme va tourner théoriquement 100x plus lentement qu’un programme n’ayant pas besoin ed charger sans arrêt la mémoire.<br /> Donc on a ajouté aux CPU des caches mémoires pour garder en local et à des vitesse bien plus élevées les données récemment accéeder (RAM = pénalité équivalente à 100 instructions, cache L2 = 20 instructions, cache L1 = 1 seule instruction de pénalité).<br /> Mais ces caches sont en quantité limitée, et peuvent facilement être gaspillé si les programmes n’en tirent pas partie correctement : ils sont gérés par bloc de 128 (en général) octets consécutifs. Idéalement, on veut avoir un max de données «&nbsp;utiles&nbsp;» dedans, et pas de données non utilisées. Ne pas stocker des objets complet en mémoire (exemple un point 3D = {posXYZ, normale XYZ, coordoonées UV de texture etc.), mais les éclater en tableaux de chaque champs (un tableau de positions, un de normales, un de coordonnées de textures etc.). Parce que si je fais des calculs avec les positions de mes points, je ne veux pas gaspiller de la bande passante et du cache mémoire avec les normales, coordonnées de textures etc.<br /> Et c’est pareil (voire même pire) sur GPU depuis une grosse dizaine d’années : il vaut mieux créer les tableaux de positions/normales/etc. séparément, il y a eu des caches rajoutés sur les unités de textures puis sur les unités de shaders. Et les groupe de threads exécutant un même shaders partagent une mémoire locale super rapide mais très petite (48kb à 64kb par groupe de 32 à 64 threads en générale), l’équivalent du cache mémoire d’un CPU… Sauf qu’il faut le gérer et l’utiliser à la manos dans les compute shaders. Et les accès mémoires des threads d’un même groupes doivent être «&nbsp;cohérents&nbsp;» : se suivre en mémoire (la thread 0 lit les octets 0 à 31, la thread 1 lit 31 à 63, la thread 2 lit 64 à 95 etc.); sinon ils n’auront pas lieu en même temps, et le programme tournera entre 2x et 64x plus lentement.<br /> Trop de programmeurs ont encore une vieille mentalité des années 80s où il n’y avait pas de cache mémoire et l’on peut allouer des objets complexes en se foutant de la représentation en mémoire; mais c’est pourtant souvent l’élément essentiel à gérer pour les performances d’un programme; pas les GHz ou nombre de calculs en flottant/seconde. Et je ne parle pas des langages comme Java qui ne permettent que très très difficilement de gérer «&nbsp;correctement&nbsp;» la mémoire.<br /> Bref : les nombres de TFlops ou opérations/s ou autre ne veulent pas dire grand chose.<br /> C’est comme pour les voitures : annoncer une puissance max, c’est pratique pour comparer en un chiffre, mais ça n’indique pas si cette puissance est due à un couple fort ou à un régime moteur élevé, comment la boite est étagée etc. C’est plus simple et facile - mais trop simple - avec un seul chiffre.
Pernel
Si t’as 1+ Milliard de dollar …
phil995511
«&nbsp;Les ARMs sont les champions de la perf/watt. Mais sont bien derrière en performances pures.&nbsp;»<br /> Certainement plus pour très longtemps…<br /> Génération-NT<br /> Ampere Altra Max : le processeur ARM pour serveurs grimpe à 128 coeurs<br /> Après un processeur de 80 coeurs, la jeune entreprise Ampere monte en gamme avec l'Altra Max, un processeur ARM pour serveurs de 128 coeurs.<br /> System<br /> Xiaomi Redmi K30<br /> Qualcomm Qualcomm 1804 MHz (8 cores, ARM)<br /> Uploaded<br /> Jun 06, 2020<br /> Platform<br /> Android<br /> Single-Core Score<br /> 5441<br /> Multi-Core Score<br /> 16245<br /> https://browser.geekbench.com/v5/cpu/singlecore
nicgrover
Ils acceptent les billets de Monopoly ?
Nmut
Ils courent vite mais ils sont toujours à la traine! Et surtout si on regarde autre chose que les benchs synthétiques qui se limitent plus ou moins quelques opérations simples en boucle.<br /> Il y a déjà des ARM qui ont des résultats Geekbench équivalents à un i7 entrée de gamme. Effectivement en bureautique ta machine sera aussi performante, en jeu avec l’Intel HD intégré aussi (mais l’intel HD a un handicap), et sur du calcul complexe (calculs matriciels ou trigo, beaucoup de mémoire utilisée), le i7 explose complètement l’équivalent ARM (genre x20 à x100 plus rapide).
c_planet
y que moi qui ai vu l’allusion dans le titre ? https://fr.wikipedia.org/wiki/Mu_(zen)
Lepered
travaillant dans le domaine, depuis 1 an et demie, la plupart des supercalculateurs Européens sont commandées sur base de CPU AMD, genre à + de 90%. Intel est juste aussi à la ramasse sur ce domaine aussi.
mcbenny
Et ça termine le jeu en 14 dixièmes de seconde.
Voir tous les messages sur le forum

Actualités du moment

Forfait Cdiscount Mobile 200 Go à 9,99€/mois pendant 1 an
Windows 10 : le client de messagerie Courrier a des problèmes avec Gmail
Apex Legends arrivera sur smartphones (iOS et Android) cette année
Des experts en IA condamnent fermement un logiciel censé prévenir les crimes
Avec iOS 14, l'iPhone va écouter notre environnement, pour notre sécurité
Bloodstained: Curse of the Moon 2, un nouveau Castlevania 2D
Netflix cacherait désormais les contenus restreints géographiquement si vous utilisez un VPN
La plus haute juridiction allemande juge que Facebook abuse de sa position pour collecter des données
Les Airpods Pro mis à jour mais... Sans qu'on sache ce qui est mis à jour
Microsoft Defender est désormais disponible sur Android
Haut de page