In vista dell'implementazione di Frontier quest'anno, il "frantoio" da 1,5 gabinetti è al servizio della scienza
Di Tiffany Trader
28 marzo 2022
Il supercomputer Frontier è stato installato presso l’Oak Ridge National Laboratory del Dipartimento dell’Energia nel 2021, con l’ultimo cabinet installato in ottobre. Mentre continua la messa a punto dell'intero sistema di picco a 2 exaflop (abbiamo sentito parlare in via ufficiosa di problemi con la tecnologia di interconnessione), il progetto Frontier è in esecuzione con un sistema di prova più piccolo con lo stesso design di base.
Con un clock di circa 40 petaflop a doppia precisione, "Crusher" è un'iterazione da 1,5 cabinet del supercomputer Cray EX Frontier. Crusher servirà i primi utenti scientifici mentre continuano l'integrazione e il test dell'intero sistema Frontier da 74 cabinet. Il sistema Frontier è sulla buona strada per diventare il primo sistema exascale degli Stati Uniti quest'anno e entrerà in piena operatività per gli utenti il 1° gennaio 2023, secondo l'Oak Ridge National Laboratory.
Crusher è composto da 192 nodi HPE Cray EX, ciascuno con una CPU AMD "Trento" 7A53 Epyc e quattro GPU AMD Instinct MI250X (per un totale di 768 GPU). Trento utilizza gli stessi core Zen-3 di Milano, ottimizzati per una migliore efficienza di memoria. I nodi sono collegati tramite l'interconnessione Slingshot-11 di HPE. Ogni nodo è dotato di memoria DDR4 da 512 GiB sulla CPU e HMB2e da 512 GiB (128 GiB per GPU) con memoria coerente su tutto il nodo.
Al contrario, il Frontier a grandezza naturale è previsto per fornire 2 exaflop di prestazioni di picco a doppia precisione in 74 cabinet all'interno di un inviluppo di potenza di 29 MW. Occupando un'area di 372 m2 presso l'Oak Ridge Leadership Computing Facility (OLCF), Frontier si estende su 9.408 nodi aggregando 9,2 petabyte di memoria (4,6 petabyte di DDR4 e 4,6 petabyte di HBM2e). Conteggio totale delle GPU: 37.632. Sono disponibili 37 petabyte di spazio di archiviazione locale del nodo e accesso a 716 petabyte di spazio di archiviazione a livello di centro.
I rack HPE Olympus utilizzati nell'architettura Frontier sono interamente raffreddati a liquido, compresi i DIMM e le NIC. Ogni armadio (a secco) pesa 3.630 chilogrammi. L'intero sistema Frontier ha un totale di 81.000 cavi.
Crusher, ha detto Oak Ridge, è pronto a "schiacciare" la scienza, anche se sospettiamo che il nome possa anche essere un riferimento all'ufficiale medico capo della serie televisiva Star Trek: The Next Generation. Per estensione, la configurazione completa sarebbe la "Frontiera Finale".
Quattro progetti hanno già ottimizzato con successo i loro codici per Crusher e quindi anche per Frontier. Sono il progetto CANcer Distributed Learning Environment, o CANDLE; il progetto Computational Hydrodynamics on ∥ (parallel) architectures, o Cholla; il progetto Locally Self-Consistent Multiple Scattering, o LSMS; e il progetto Nuclear Coupled-Cluster Oak Ridge, o NuCCOR. Alcuni di questi codici risalgono al primo sistema di architettura ibrida di OLCF, il supercomputer Cray XK7 Titan da 27 petaflop dismesso che utilizzava anche nodi CPU+GPU e che è stato installato nel 2012.
Punti salienti dei primi risultati:
"Csher è l'ultimo di una lunga serie di sistemi di test e sviluppo che abbiamo implementato per i primi utenti delle piattaforme OLCF ed è senza dubbio il più potente di questi che abbiamo mai fornito", ha affermato Bronson Messer di ORNL, direttore scientifico di OLCF. "I risultati che questi team di codifica stanno ottenendo sulla macchina sono molto incoraggianti mentre guardiamo verso l'alba dell'era exascale con Frontier."
"Occupando solo 44 piedi quadrati di spazio, Crusher è 1/100 delle dimensioni del precedente supercomputer Titan ma più veloce di quanto lo fosse l'intero sistema da 4.352 piedi quadrati, racchiudendo un'enorme potenza di calcolo per le sue piccole dimensioni," ha inoltre riferito il Annuncio di Oak Ridge.
L'implementazione di Frontier era originariamente prevista per la seconda metà del 2021 e accettata nel 2022. Ritardi di qualche tipo sono tipici con sistemi di supercalcolo di questa portata e scala, e Frontier è la prima implementazione dell'architettura AMD A+A in aggiunta ad essere una delle prime macchine exascale al mondo. Resta da vedere se Frontier sarà pronto in tempo per l'elenco Top500 di fine maggio (non giugno di quest'anno), come era stato ampiamente anticipato (dato che il sistema era completamente installato prima del rilascio dell'elenco di novembre 2021). Oak Ridge non ha offerto una tempistica precisa per l'implementazione e l'accettazione di Frontier oltre a dichiarare che avverrà nel 2022, seguita dall'inizio delle operazioni complete il 1 gennaio 2023.