La serie di GPU Instinct di AMD sta diventando popolare nella comunità informatica e AI. Ecco perché.
Non c'è dubbio che NVIDIA continui a dominare lo spazio del calcolo parallelo con le sue varie e popolari serie di GPU. Ma con gli acceleratori Instinct AI di AMD che equipaggiano due dei supercomputer più nuovi e più grandi (Frontier ed El Capitan) e il crescente supporto della comunità per la loro piattaforma ROCm open source, NVIDIA potrebbe aver trovato il loro più grande rivale.
Quindi cosa sono esattamente gli acceleratori Instinct AI di AMD? Cosa le rende potenti e come si confrontano con le GPU Tensor di NVIDIA?
Cos'è un processore AMD Instinct?
I processori Instinct di AMD sono hardware di livello aziendale utilizzato per il calcolo ad alte prestazioni (HPC) e l'elaborazione accelerata dall'intelligenza artificiale. A differenza delle normali GPU di livello consumer, le GPU Instinct sono specializzate per gestire meglio l'apprendimento AI e altre attività ad alte prestazioni attraverso innovazioni software e hardware.
La serie di GPU Instinct di AMD è stata utilizzata per alimentare il primo supercomputer a rompere la barriera Exascale, con prestazioni a 1,1 EFLOP con operazioni a doppia precisione al secondo. I supercomputer che utilizzano le GPU Instinct sono attualmente utilizzati per ricercare trattamenti contro il cancro, energia sostenibile e cambiamento climatico.
In che modo i processori Instinct accelerano AI e HPC
Per i server e i supercomputer mainstream più potenti al mondo per ottenere l'elaborazione a livello Exascale, gli acceleratori Instinct di AMD dovevano essere dotati di numerosi aggiornamenti tecnologici e innovazioni.
Parliamo di alcune delle tecnologie nuove e aggiornate utilizzate sulle GPU AMD Instinct.
1. Calcola il DNA (CDNA)
I recenti acceleratori AMD Instinct (a partire dall'MI100) hanno utilizzato l'architettura CDNA dell'azienda.
CDNA si concentra principalmente su funzionalità come l'elaborazione parallela, la gerarchia della memoria e le prestazioni di elaborazione ottimizzate attraverso la tecnologia Matrix Core. Anche l'HPC e l'intelligenza artificiale o l'apprendimento automatico in esecuzione su singoli server possono essere supportati da CDNA, così come enormi computer Exascale.
La tecnologia Matrix Core di AMD accelera l'apprendimento dell'IA supportando operazioni a precisione mista. La capacità di calcolare con una precisione diversa consente alle GPU Instinct di calcolare in modo efficiente le operazioni di matrice in base al livello di precisione necessario.
I formati di precisione di calcolo più popolari includono FP64, FP32, FP16, BF16 e INT8. FP sta per Floating Point, BF per Brain Floating Point e INT per Integer. Più alto è il numero corrispondente al formato, più preciso è il calcolo. Il funzionamento a 64 bit è noto come doppia precisione. Con 32 bit è a precisione singola, a 16 bit è a mezza precisione e così via.
Poiché una grossa fetta dell'addestramento di modelli di deep learning non richiede molta precisione, avendo la capacità di calcolare la matrice le operazioni a mezza precisione o addirittura a un quarto di precisione per l'inferenza riducono significativamente il carico di lavoro, accelerando così l'intelligenza artificiale apprendimento.
2. Memoria ad alta larghezza di banda (HBM)
Ogni acceleratore AMD Instinct AI viene fornito con un massimo di 880 Matrix Core. Con i processori Matrix Core di AMD in grado di eseguire 383 TFLOP di calcoli a mezza precisione, è necessaria una memoria ultraveloce. Le ultime offerte Instinct di AMD sono dotate di High Bandwidth Memory (HBM) invece della solita RAM DDR4 o DDR5.
A differenza della memoria convenzionale, la HBM utilizza quella che è nota come architettura impilata 3D. Questo tipo di architettura si riferisce a un approccio progettuale in cui i die DRAM sono impilati verticalmente uno sopra l'altro. Ciò consente di impilare gli stampi sia sull'asse verticale che su quello orizzontale, da qui il termine impilamento 3D.
Con questa tecnologia di stacking 3D, gli HBM possono avere capacità di memoria fisica fino a poche centinaia di gigabyte per modulo, mentre DRR5 può fare solo fino a decine di gigabyte per modulo. A parte la capacità, gli HBM sono anche noti per avere prestazioni più elevate in termini di velocità di trasferimento e migliore efficienza energetica rispetto alla normale memoria DDR.
3. Tessuto infinito
Un'altra innovazione inclusa nelle GPU Instinct è la tecnologia Infinity Fabric di AMD. Infinity Fabric è un tipo di sistema di interconnessione che collega CPU e GPU in modo dinamico e intelligente. Ciò consente ai componenti di comunicare in modo efficiente tra loro.
Con Infinity Fabric, invece di collegare i componenti con un normale bus, i componenti sono ora collegati in una rete a maglie in cui le larghezze di banda possono raggiungere diverse centinaia di gigabyte al secondo.
Oltre all'interconnessione simile a una rete, Infinity Fabric utilizza anche sensori incorporati in ciascun die in modo dinamico frequenza di controllo, velocità di trasferimento dei dati e altri comportamenti adattivi, ottimizzando le prestazioni e riducendo al minimo latenza.
4. Piattaforma di sviluppo ROCM
CUDA (architettura di dispositivi unificati per il calcolo) di NVIDIA è la piattaforma di sviluppo più utilizzata per l'addestramento dei modelli di intelligenza artificiale. Il problema con CUDA è che funziona solo con le GPU NVIDIA. Questo è uno dei motivi principali per cui NVIDIA detiene la stragrande maggioranza delle quote di mercato per gli acceleratori GPU HPC e AI.
Con AMD che voleva ottenere una fetta più grande del mercato HPC e AI, ha dovuto sviluppare la propria piattaforma, ROCm (Radeon Open Compute). ROCm è una piattaforma software open source che consente di utilizzare le GPU Instinct come acceleratori AI.
Sebbene non faccia necessariamente parte dell'hardware Instinct, ROCm è fondamentale quando si tratta della sopravvivenza della linea di GPU Instinct. Con ROCm, sviluppatori e i ricercatori ottengono gli strumenti ROCm, il compilatore, i driver del kernel, tutta una serie di librerie e l'accesso a framework come TensorFlow e PyTorch per sviluppare con i loro preferito Linguaggio di programmazione AI.
Come si confrontano gli acceleratori IA Instinct con gli acceleratori IA GPU Radeon?
AMD offre la sua gamma di GPU Instinct per le GPU aziendali e Radeon per i consumatori abituali. Come discusso in precedenza, la GPU Instinct utilizza l'architettura CDNA di AMD, HBM e l'interconnessione Infinity Fabric. Al contrario, Radeon utilizza l'architettura RDNA di AMD, la memoria DDR6 e Infinity Cache.
Sebbene meno capace, la serie Radeon di acceleratori AI offre ancora un pugno implementando uno o due core di accelerazione AI per unità di calcolo. L'ultimo GPU Radeon RX7900 XT ha due core di accelerazione AI per unità di calcolo, consentendo 103 TFLOP di picco a mezza precisione e 52 TFLOP di picco di calcoli a precisione singola.
Mentre la serie di GPU Instinct è più adatta per LLM e HPC, gli acceleratori Radeon AI possono essere utilizzati per mettere a punto modelli pre-addestrati, inferenze e attività a uso intensivo di grafica.
AMD Istinto vs. Tensore NVIDIA
Secondo a Sondaggio TrendForce, NVIDA ha una quota di mercato dell'80% per le GPU server, mentre AMD ha solo il 20%. Questo travolgente successo di NVIDIA è dovuto al fatto che si tratta di un'azienda specializzata nella progettazione e nell'assemblaggio di GPU. Ciò consente loro di progettare GPU con prestazioni significativamente migliori senza pari con altre offerte.
Confrontiamo l'Instinct MI205X di AMD e l'H100SXM5 di NVIDIA utilizzando le specifiche di Sito ufficiale di AMD E Scheda tecnica di NVIDIA:
Modello GPU |
FP64 (TFLOP) |
FP32 (TFLOP) |
FP16 (TFLOP) |
INT8 (TFLOP) |
---|---|---|---|---|
AMD Istinto MI250X |
30.0 |
60.0 |
1000 |
2000 |
NVIDIA H100SXMS |
47.9 |
95.7 |
383.2 |
383 |
Come puoi vedere nella tabella, l'MI250X di AMD ha prestazioni migliori in termini di doppia precisione e mezza precisione calcoli, mentre l'H100SXMS di NVIDIA è di gran lunga migliore in termini di matrice a mezza precisione e a un quarto di precisione calcoli. Ciò rende l'MI250X di AMD più adatto per l'HPC mentre l'H100SXMS di NVIDIA con apprendimento e inferenza AI.
Il futuro dei processori Instinct di AMD
Sebbene l'ultima offerta di AMD, l'MI250X, sia progettata per l'HPC, il loro prossimo MI300 è più orientato all'addestramento AI. Questo acceleratore AI è annunciato per essere un'APU, che combina GPU e CPU in un unico pacchetto. Ciò consente all'MI300 di utilizzare l'architettura APU a memoria unificata CNDA3, in cui la GPU e la CPU utilizzeranno solo una memoria, aumentando l'efficienza e riducendo il prezzo.
Anche se oggi AMD non sarà in competizione con NVIDIA sul mercato degli acceleratori AI, una volta che l'MI300 verrà rilasciato e ROCm diventerà raffinata, la serie Instinct di AMD potrebbe essere abbastanza buona da strappare una parte significativa del mercato degli acceleratori AI da NVIDIA.