Opzioni di calcolo scientifico che maturano nel cloud

Di Agam Shah

31 agosto 2023

Il supercalcolo rimane in gran parte un affare on-premise per molte ragioni che includono potenza, sicurezza e gestione del sistema. Le aziende hanno bisogno di più tempo per spostare i carichi di lavoro nel cloud, ma le opzioni sono in aumento. (Vedi le previsioni HPC-AI pubblicate di recente da Intersect 360 Research.)

Ad agosto, Google Cloud e Amazon Web Services hanno annunciato macchine virtuali ad alte prestazioni, che di fatto sono versioni online dell'elaborazione fornita dai sistemi on-premise. Le VM HPC sono basate sulla tecnologia proprietaria dei provider cloud, inclusi i processori più recenti, interconnessioni superveloci, funzionalità di sicurezza e capacità di memoria.

Le macchine virtuali HPC supportano distribuzioni ibride, in cui le aziende possono dividere i carichi di lavoro tra sistemi locali e macchine virtuali offerte da AWS e Google. Alcuni utenti HPC preferiscono inviare carichi di lavoro a bassa priorità al cloud, liberando così risorse di elaborazione on-premise per eseguire carichi di lavoro più critici.

Il più grande svantaggio dell’HPC nel cloud restano le limitazioni della larghezza di banda, data la bassa velocità della rete su grandi distanze geografiche. Tuttavia, molte aziende ingegneristiche e farmaceutiche si stanno rivolgendo al cloud grazie ai ricchi strumenti di sviluppo, a una lunga lista di set di dati, strumenti analitici e di database e altro middleware a disposizione dei clienti. Integratori come Rescale e Altair forniscono software e supporto per creare ambienti ibridi condivisi per applicazioni HPC.

Le nuove VM dei fornitori cloud si concentrano proprio sul calcolo scientifico convenzionale. I sistemi non sono mirati all'intelligenza artificiale e non sono forniti in bundle con GPU. AWS e Google offrono istanze costose delle GPU H100 di Nvidia, destinate al calcolo parallelo e alle applicazioni AI.

AWS ha recentemente annunciato EC2 Hpc7, una macchina virtuale basata sui chip Epyc di quarta generazione di AMD, nome in codice Genoa. Hpc7a è x86, un aggiornamento dalle recenti istanze Hpc6a EC2 basate sui chip Epyc della generazione precedente di AMD, nome in codice Milan.

L'Hpc7a ha il doppio della capacità di memoria nelle configurazioni VM a pieno carico e una larghezza di banda di rete di 300 Gbps. Amazon ha affermato che Hpc7a fornisce 2,5 volte più velocemente delle istanze Hpc6a. L'istanza hpc7a.96xlarge più grande offre 192 core CPU e 768 GB di memoria DDR5. Le VM supportano Elastic Fiber Adapter e file system come Lustre, molto diffusi nell'HPC.

AWS offre altre macchine virtuali HPC, incluso Hpc7g basato su ARM, che funziona sul chip Graviton3E sviluppato internamente. Il Riken Center of Computational Science ha creato un "Fugaku virtuale" per Hpc7g, o una versione cloud dello stack software di Fugaku, il secondo supercomputer più veloce al mondo, su AWS. Fugaku è inoltre basato su processori ARM, rendendo possibile la replica dell'ambiente software.

Google ha annunciato l'istanza VM H3 per HPC in agosto, che bilancia prezzo e prestazioni con l'aiuto di velocità di rete elevate e un ampio gruppo di core della CPU.

Le configurazioni H3 si basano sulle ultime CPU Intel Sapphire Rapids, con ciascun nodo che aggrega 88 core CPU e 352 GB di memoria. Le VM sono destinate ad applicazioni che non sono parallelizzate e vengono eseguite in ambienti a thread singolo.

Le macchine virtuali sono costruite sulla base del processore dati personalizzato E2000 sviluppato in collaborazione da Intel e Google, nome in codice Mount Evans. I nodi H3 possono comunicare a velocità di 200 Gbps e dispongono di 16 core CPU Neoverse N1 basati su ARM.

I benchmark di Google hanno confrontato l'H3 con le precedenti VM C2 basate sulle CPU Cascade Lake di Intel, che sono due generazioni indietro rispetto a Sapphire Rapids. La VM H3 basata solo sulla CPU è tre volte più veloce in termini di prestazioni per nodo e può far risparmiare ai clienti il 50% sui costi.

Il confronto non è un confronto diretto poiché i chip dei server sono generalmente confrontati con i chip della generazione precedente, in questo caso Ice Lake. Ma il confronto di Google è più in linea con i cicli di aggiornamento dei server, che si verificano ogni due o tre anni.

Al recente summit Google Cloud Next, l’azienda ha ampliato le sue opzioni di elaborazione ad alte prestazioni per l’intelligenza artificiale. La società ha annunciato pod con i suoi ultimi chip AI TPU v5e e ha annunciato la disponibilità generale dei suoi sistemi di supercalcolo A3, che possono ospitare 26.000 GPU Nvidia e supportare il calcolo parallelo. Entrambi i chip sono destinati all'addestramento e all'inferenza nelle applicazioni AI.