Avant le déploiement de Frontier cette année, 1.5 Cabinet 'Crusher' sert la science
Par Tiffany Trader
28 mars 2022
Le supercalculateur Frontier a été installé au laboratoire national d'Oak Ridge du ministère de l'Énergie en 2021, et l'armoire finale a été mise en place en octobre. Alors que le bouleversement du système de pointe complet à 2 exaflops se poursuit - nous avons entendu parler de problèmes avec la technologie d'interconnexion - le projet Frontier est en cours d'exécution avec un système de banc d'essai plus petit de la même conception de base.
Avec une double précision de crête d'environ 40 pétaflops, "Crusher" est une itération à 1,5 armoire du supercalculateur Cray EX Frontier. Crusher servira les premiers utilisateurs scientifiques pendant que l'intégration et les tests du système Frontier complet à 74 armoires se poursuivent. Le système Frontier est en passe de devenir le premier système exascale des États-Unis cette année et entrera en exploitation complète le 1er janvier 2023, selon le laboratoire national d'Oak Ridge.
Crusher se compose de 192 nœuds HPE Cray EX - chacun avec un processeur AMD "Trento" 7A53 Epyc et quatre GPU AMD Instinct MI250X (pour un total de 768 GPU). Trento utilise les mêmes cœurs Zen-3 que Milan, optimisés pour une meilleure efficacité de la mémoire. Les nœuds sont connectés par l'interconnexion Slingshot-11 de HPE. Chaque nœud arbore une mémoire DDR4 de 512 Go sur le CPU et 512 Go de HMB2e (128 Go par GPU) avec une mémoire cohérente sur tout le nœud.
En revanche, le Frontier pleine grandeur devrait fournir 2 exaflops de performances maximales en double précision dans 74 armoires dans une enveloppe de puissance de 29 MW. Occupant une empreinte de 372 m2 au Oak Ridge Leadership Computing Facility (OLCF), Frontier s'étend sur 9 408 nœuds regroupant 9,2 pétaoctets de mémoire (4,6 pétaoctets de DDR4 et 4,6 pétaoctets de HBM2e). Nombre total de GPU : 37 632. Il y a 37 pétaoctets de stockage local de nœud et un accès à 716 pétaoctets de stockage à l'échelle du centre.
Les racks HPE Olympus utilisés dans l'architecture Frontier sont entièrement refroidis par liquide, y compris les modules DIMM et les cartes réseau. Chaque armoire (une fois sèche) pèse 3 630 kilogrammes. Le système Frontier complet compte au total 81 000 câbles.
Crusher, a déclaré Oak Ridge, est prêt à "écraser" la science, bien que nous soupçonnions que le nom pourrait également être un clin d'œil au médecin-chef de la série télévisée Star Trek: The Next Generation. Par extension, la configuration complète serait la "Final Frontier".
Quatre projets ont déjà vu leurs codes optimisés avec succès pour Crusher et donc Frontier également. Il s'agit du projet CANcer Distributed Learning Environment, ou CANDLE ; le projet Computational hydrodynamics on ∥ (parallel) architectures, ou projet Cholla ; le projet Locally Self-Consistent Multiple Scattering, ou LSMS ; et le projet Nuclear Coupled-Cluster Oak Ridge, ou NuCCOR. Certains de ces codes remontent au premier système d'architecture hybride d'OLCF, le supercalculateur Cray XK7 Titan de 27 pétaflops mis hors service qui utilisait également des nœuds CPU + GPU et qui a été mis en place en 2012.
Faits saillants des premiers résultats :
"Crusher est le dernier d'une longue gamme de systèmes de test et de développement que nous avons déployés pour les premiers utilisateurs des plates-formes OLCF et est de loin le plus puissant que nous ayons jamais fourni", a déclaré Bronson Messer, directeur scientifique de l'OLCF, de l'ORNL. "Les résultats obtenus par ces équipes de code sur la machine sont très encourageants alors que nous nous tournons vers l'aube de l'ère exascale avec Frontier."
« Occupant seulement 44 pieds carrés d'espace au sol, Crusher est 1/100ème de la taille du supercalculateur Titan précédent mais plus rapide que l'ensemble du système de 4 352 pieds carrés, emballant un énorme coup de poing informatique pour sa petite taille », a en outre rapporté le Annonce d'Oak Ridge.
Frontier devait initialement être déployé dans la seconde moitié de 2021 et accepté en 2022. Des retards d'une sorte ou d'une autre sont typiques des systèmes de supercalcul de cette envergure et de cette échelle, et Frontier est la première implémentation de l'architecture AMD A+A en plus d'être l'une des premières machines exascale au monde. Il reste à voir si Frontier sera prêt à temps pour la liste Top500 fin mai (et non juin de cette année) comme cela avait été largement prévu (étant donné que le système était entièrement installé avant la publication de la liste de novembre 2021). Oak Ridge n'a pas proposé de calendrier précis pour le déploiement et l'acceptation de Frontier, si ce n'est en déclarant que cela se produira en 2022, suivi d'opérations complètes à partir du 1er janvier 2023.
Un défi qu'Oak Ridge et ses partenaires fournisseurs ont déjà surmonté concerne les pénuries de la chaîne d'approvisionnement provoquées par Covid. S'exprimant au SCA22 plus tôt ce mois-ci, Al Geist, chercheur en entreprise de l'ORNL, a déclaré que sur les 59 millions de pièces de Frontier, il y avait environ 2 millions de pièces que les fabricants réguliers ne pouvaient pas fournir. "Il y a eu un effort héroïque de la part des équipes HPE et AMD pour appeler les entrepôts d'électronique et […] d'autres fabricants et [s'approvisionner en pièces manquantes.]"
Une installation de premier plan (c'est dans le nom), OLCF est le siège de Summit, un autre système CPU-GPU hétérogène qui a fait ses débuts en 2018. Fournissant 149 pétaflops Linpack, la machine construite par IBM est actuellement le système numéro deux sur le double- liste annuelle Top500 des ordinateurs les plus rapides. Le titre de supercalculateur le plus rapide au monde est officiellement détenu par le système Fujitsu basé sur Riken Arm (pic de 442 pétaflops), mais la Chine aurait deux systèmes exascale qui ont été retirés de la liste pour des raisons politiques.
Deux autres systèmes exascale sont sur le pont aux États-Unis : Aurora au Laboratoire national d'Argonne et El Capitan au Laboratoire national de Livermore. Aurora, après avoir subi plusieurs réinitialisations et revers, devrait être présentée au laboratoire national d'Argonne plus tard cette année. La collaboration Intel-HPE vise désormais des performances de pointe supérieures à 2 exaflops. À première vue, le déploiement ralenti de Frontier pourrait éventuellement mettre ces délais en conflit; cependant, Frontier est déjà sur le sol et Aurora ne l'est pas. Le GPU Ponte Vecchio pour le supercalculateur Aurora ne sera livré que plus tard cette année, a récemment rapporté Intel. Pendant ce temps, la préparation d'El Capitan est bien avancée à Livermore ; le système – qui sera construit par HPE en utilisant une architecture similaire à Frontier – devrait être livré en 2023, promettant des performances de pointe supérieures à 2 exaflops.
Lire l'OLCFcommuniqué de pressepour plus de détails sur les codes scientifiques qui s'exécutent sur Crusher.
communiqué de presse