Nvidia B200 Tensor-Core-CPU und KI-Supercomputer Nvidia Blackwell: Monster-GPU für die GenAI-Ära

Von Klaus Länger 5 min Lesedauer

Anbieter zum Thema

Die Entwickler von KI-Anwendungen, speziell die der Generativen KI, verlangen nach immer Rechenleistung. Nvidia will ihnen die mit den neuen Blackwell-GPUs und darauf basierenden Systemen geben. Zudem baut der Hersteller sein KI-Software-Ökosystem weiter aus.

Der GB200 Grace Blackwell Superchip kombiniert zwei Blackwell-GPUs und eine Grace-CPU mit ARM-Architektur. Er dient als Basis für die eigenen Supercomputer DGX GB200 und DGX GB200 NVL72. Die Blackwell-GPU bietet Nvidia allerdings auch in Kombination mit Intel-Xeon-CPUs an und als HGX-Stack an.(Bild:  Nvidia)
Der GB200 Grace Blackwell Superchip kombiniert zwei Blackwell-GPUs und eine Grace-CPU mit ARM-Architektur. Er dient als Basis für die eigenen Supercomputer DGX GB200 und DGX GB200 NVL72. Die Blackwell-GPU bietet Nvidia allerdings auch in Kombination mit Intel-Xeon-CPUs an und als HGX-Stack an.
(Bild: Nvidia)

Für Nvidia läuft es derzeit glänzend: Die Kunden reißen der Firma die GPUs geradezu aus den Händen, um sie in immer leistungsfähigeren KI-Systemen und Clustern einzusetzen. Gerade erst hat Meta Details zu zwei KI-Clustern mit jeweils fast 25.000 H100-GPUs von Nvidia veröffentlicht, die für das Training des großen Llama-3-Sprachmodells genutzt werden sollen. Mit der Vorstellung der B200- und B100-Tensor-Core-GPUs mit Blackwell-Architektur auf der GTC 2024 zündet Nvidia nun die nächste Stufe der GPU-Entwicklung für KI-Aufgaben.

Die nach dem afroamerikanischen Mathematiker David Blackwell benannte Architektur für KI-Beschleuniger soll im Vergleich zur Hopper-Architektur der H100- und H200-Chips für eine 2,5fache-FP8-Leistung beim KI-Training sorgen. Das KI-Inferencing mit FP4 soll sogar fünf mal so schnell erfolgen, verspricht Nvidia-CEO Jensen Huang bei der Vorstellung der Blackwell-GPUs. Das Inferencing mit 4-Bit-Präzision ist eine Neuerung bei Blackwell. Laut Nvidia liefert sie gegenüber dem bisher verwendeten FP8 die doppelte Leistung bei doppelter Bandbreite. Die hohe Leistung der GPU ist laut Huang zudem für das Training von noch größeren Modellen mit multimodalen Daten wie Texten, Bildern, Graphen und Tabellen sowie zukünftig auch Videos notwendig. Maßgeblich dafür ist bei der Blackwell-Architektur die Transformer Engine der zweiten Generation als Bestandteil der Tensor Cores.

Bildergalerie
Bildergalerie mit 6 Bildern

GPU mit zwei Dies

Der aus rund 208 Milliarden Transistoren aufgebaute KI-Superchip ist so groß, dass er nicht mehr mit einer Maske belichtet werden kann. Daher besteht er aus zwei Dies, die über einen NV-Link mit einer Bandbreite von 10 TB/s verbunden sind. Damit können die beiden Dies als eine GPU operieren. Rund um die beiden Dies sind acht HBM3e-Stacks mit 192 GB mit einer Bandbreite von 8 TB/s angebunden. Weitere Bestandteile der GPU sind eine eigene Dekompressions-Engine mit einer Bandbreite von 800 GB/s sowie eine RAS-Engine. Die Abkürzung steht für Reliability, Availability and Serviceability. Die Engine soll für einen störungsfreien Betrieb sorgen und nutzt dafür die eigene KI-Leistung für Preventive Maintenance. Mit Secure AI soll die GPU schließlich sicherstellen, dass Modelle und Daten verschiedener Kunden auf einem System sicher und sauber voneinander getrennt verarbeitet werden.

Für die Verbindung der GPUs untereinander dient ein NV-Link der mittlerweile 5. Generation, der mit einer auf 1,8 GB/s verdoppelten Bandbreite einen bisherigen Flaschenhals beseitigt. Die dafür nötigen NV-Link-Switch-Chips lässt Nvidia ebenso wie die Blackwell GPUs bei TSMC in einem 4NP-Prozess fertigen. Sie bestehen aus 50 Milliarden Transistoren und liefern selbst eine enorme Rechenleistung .

Von der GPU gibt es zwei Varianten: B200 mit bis zu 1.200 Watt Leistungsaufnahme bei Flüssigkeitskühlung und B100 für HGX-Systeme mit acht 700-Watt-SMX-Modulen. Die B100-GPUs sind identisch aufgebaut, arbeiten aber mit geringerer Leistung.

GB200 Superchip, GB200 NVL72 und DGX SuperPOD

Für den GB200 Superchip kombiniert Nvidia auf einer Platine jeweils zwei B200-GPUs und eine Grace-CPU mit 72 ARM-Cores sowie 864 GB schnellen Arbeitsspeicher. Die Verbindung zwischen den GPUs und der CPU wird über NV-Link C2C hergestellt. In einem flüssigkeitsgekühlen GB200 Compute Tray sitzen zwei GB200 Superchips nebeneinander, 18 davon passen in ein Rack. Dazu kommen noch neun ebenfalls flüssigkeitsgekühlte NV-Link Switch Trays mit jeweils zwei NV-Link Switches. Eines der neuen Produkte, das auf dem GB200 Superchip basiert ist der in einem Rack untergebrachte Exascale Computer GB200 NVL72 mit 72 GPUs und 36 CPUs. Ein zusätzlich mit Nvidias Bluefield-3-DPUs ausgestatteter GB200 NVL72 agiert als eine einzige GPU mit 1,4 ExaFLOPS KI-Leistung. Gegenüber einem System mit der selben Anzahl von H100-GPUs soll ein GB200 NVL72 die 30fache-Leistung bei LLM -Inference-Workloads liefern, dabei aber die Leistungsaufnahme und die Kosten massiv reduzieren.

Die GB200-NVL72-Systeme sind auch Bausteine für die KI-Supercomputer DGX SuperPOD, die aus bis zu acht über NV-Link verbundenen Systemen mit zusammen 576 GPUs bestehen. Nvidia wird dies Systeme auch selbst in der eigenen DGX Cloud einsetzen.

DGX B200, HGX B200 und HGX B100

Eine neue kleinere KI-Plattform von Nvidia ist die DGX B200 mit acht B200-GPUs und zwei Xeon-Platinum-8570-CPUs von Intel mit zusammen 112 Cores und bis zu 4 TB Arbeitsspeicher. Sie soll gegenüber einem DGX-H100-System die dreifache Leistung beim Training und die 15fache Performance bein Inferencing liefern. B200-Systeme können ebenfalls als Komponenten für einen DGX SuperPOD dienen. Als Baustein für Systempartner bietet Nvidia aus Blackwell-Basis die Baseboards HGX B200 und und HGX B100 mit acht B200- beziehungsweise acht B100-GPUs an.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Neue Ethernet- und Infiniband-Switches

Weitere Komponenten für ein KI-Infrastruktur, die tausende von GPUs umfassen soll, sind die Quantum-X800-Plattform für dezidierte KI-Supercomputer wie den eigenen DGX SuperPOD mit GB200-Superchips sowie die Spectrum-X800-Ethernet-Plattform für ein KI-optimiertes Netzwerk im Datacenter. Beide sollen die ersten Netzwerk-Plattformen sein, die einen End-to-End-Datendurchsatz von 800 Gb/s schaffen.

Die Quantum-X800-Plattform besteht aus dem Quantum Q3400 Switch and der ConnectX-8 SuperNIC, die Spectrum-X800-Ethernet-Plattform aus dem Spectrum-SN5600-Switch und der BlueField-3 SuperNIC. Zu den ersten Kunden, die diese Plattformen einsetzen, gehören laut Nvidia Microsoft Azure sowie die Oracle Cloud.

Nvidia NIM: Optimierte Inference Microsevices

Passend zu dem höheren Stellenwert, den das Inferencing bei Nvidia einnimmt, bietet das Unternehmen seinen Kunden als neuen Bestandteil von Nvidia AI Enterprise mit NIM optimierte, Cloud-native Microservices an, mit denen sich Modelle schneller im Unternehmen ausrollen und produktiv nutzen lassen. Sie bestehen aus vorgefertigten Containern für verschiedene Anwendungsbereiche und nutzen Inference Engines die jeweils für spezifische Modelle und die genutzte Hardware optimiert sind. Dabei sind das Feintuning der Modelle und die Verknüpfung mit eigenen Firmendaten ebenfalls möglich.Laut Nvidia ist NIM für eine breite Palette von Nvidia-Hardware nutzbar, von der DGX Cloud, über DGX- und HGXSysteme bis hin zu Workstations, PCs und Notebooks mit RTX-GPUs.

Schnellere Chipfertigung mit KI

Eine sehr spezische Anwendung von KI in der Industrie, die für Nvidia selbst sehr wichtig ist, hat der Hersteller ebenfalls auf der GTC präsentiert: Die Computational Lithography Platform. Der Chiphersteller TSMC, Lieferant für Nvidia, und Synopsis ein führender Anbieter von Lösungen für die Chipentwicklung, nutzen KI für die schnellere Erstellung der Masken für die Lithografie. Diese müssen sich von den späteren Strukturen auf den Wafern unterscheiden, um Brechungseffekte bei der Belichtung auszugleichen. Die Berechnung dieser Unterschiede ist eine zeitintensive Aufgabe, die sich laut Nvidia durch KI und die Nutzung von Nvidia-GPUs erheblich beschleunigen lässt und dabei noch Kosten, Platz und Energie spart. So sollen sich etwa 40.000 PC-Systeme durch gerade einmal 350 Nvidia-H100-GPUs ersetzen lassen. Durch die Nutzung von Generativer KI und Blackwell-GPUs soll sich die Erstellung der Masken noch weiter beschleunigen lassen, verspricht Huang.

(ID:49969038)