Nvidia Blackwell: Monster-GPU für die GenAI-Ära

Nvidia B200 Tensor-Core-CPU und KI-Supercomputer Nvidia Blackwell: Monster-GPU für die GenAI-Ära

20.03.2024 Von Klaus Länger 5 min Lesedauer

Anbieter zum Thema

NVIDIA GmbH

Logo_WatchGuard_Color_Vector_HighRes.jpg ()

WatchGuard Technologies GmbH

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fsas Technologies GmbH

Zadara Ltd.

Die Entwickler von KI-Anwendungen, speziell die der Generativen KI, verlangen nach immer Rechenleistung. Nvidia will ihnen die mit den neuen Blackwell-GPUs und darauf basierenden Systemen geben. Zudem baut der Hersteller sein KI-Software-Ökosystem weiter aus.

Der GB200 Grace Blackwell Superchip kombiniert zwei Blackwell-GPUs und eine Grace-CPU mit ARM-Architektur. Er dient als Basis für die eigenen Supercomputer DGX GB200 und DGX GB200 NVL72. Die Blackwell-GPU bietet Nvidia allerdings auch in Kombination mit Intel-Xeon-CPUs an und als HGX-Stack an.(Bild: Nvidia) — Der GB200 Grace Blackwell Superchip kombiniert zwei Blackwell-GPUs und eine Grace-CPU mit ARM-Architektur. Er dient als Basis für die eigenen Supercomputer DGX GB200 und DGX GB200 NVL72. Die Blackwell-GPU bietet Nvidia allerdings auch in Kombination mit Intel-Xeon-CPUs an und als HGX-Stack an.
(Bild: Nvidia)

Für Nvidia läuft es derzeit glänzend: Die Kunden reißen der Firma die GPUs geradezu aus den Händen, um sie in immer leistungsfähigeren KI-Systemen und Clustern einzusetzen. Gerade erst hat Meta Details zu zwei KI-Clustern mit jeweils fast 25.000 H100-GPUs von Nvidia veröffentlicht, die für das Training des großen Llama-3-Sprachmodells genutzt werden sollen. Mit der Vorstellung der B200- und B100-Tensor-Core-GPUs mit Blackwell-Architektur auf der GTC 2024 zündet Nvidia nun die nächste Stufe der GPU-Entwicklung für KI-Aufgaben.

Die nach dem afroamerikanischen Mathematiker David Blackwell benannte Architektur für KI-Beschleuniger soll im Vergleich zur Hopper-Architektur der H100- und H200-Chips für eine 2,5fache-FP8-Leistung beim KI-Training sorgen. Das KI-Inferencing mit FP4 soll sogar fünf mal so schnell erfolgen, verspricht Nvidia-CEO Jensen Huang bei der Vorstellung der Blackwell-GPUs. Das Inferencing mit 4-Bit-Präzision ist eine Neuerung bei Blackwell. Laut Nvidia liefert sie gegenüber dem bisher verwendeten FP8 die doppelte Leistung bei doppelter Bandbreite. Die hohe Leistung der GPU ist laut Huang zudem für das Training von noch größeren Modellen mit multimodalen Daten wie Texten, Bildern, Graphen und Tabellen sowie zukünftig auch Videos notwendig. Maßgeblich dafür ist bei der Blackwell-Architektur die Transformer Engine der zweiten Generation als Bestandteil der Tensor Cores.

Bildergalerie

Die Blackwell-GPU ist mit 208 Milliarden Transistoren so groß, dass sie die Grenzen einer Fotomaske (Retikel) sprengt. Daher besteht sie aus zwei Dies, die über ein High-Bandwidth-Interface mit 10 TB/s verbunden sind. Die acht HBM3e-Stacks sind zusammen 192 GB groß. (Bild: Nvidia)

Ein GB200-NVL72-System von Nvidia vereint 72 Blackwell-GPUs und 36 Grace ARM-CPUs in einem Rack. Die Komponenten werden dabei durch Flüssigkeit gekühlt.(Bild: Nvidia)

Die Bestandteile eines GB200-NVL72-Systems: Compute Trays mit jeweils zwei GB200-Superchips und NV-Link Switch Trays für die schnelle Verbindung der GPUs.(Bild: Nvidia)

Aus insgesamt GB200-NVL72-Systemen besteht der schnellste DGX SuperPOD von Nvidia.(Bild: Nvidia)

Bildergalerie mit 6 Bildern

GPU mit zwei Dies

Der aus rund 208 Milliarden Transistoren aufgebaute KI-Superchip ist so groß, dass er nicht mehr mit einer Maske belichtet werden kann. Daher besteht er aus zwei Dies, die über einen NV-Link mit einer Bandbreite von 10 TB/s verbunden sind. Damit können die beiden Dies als eine GPU operieren. Rund um die beiden Dies sind acht HBM3e-Stacks mit 192 GB mit einer Bandbreite von 8 TB/s angebunden. Weitere Bestandteile der GPU sind eine eigene Dekompressions-Engine mit einer Bandbreite von 800 GB/s sowie eine RAS-Engine. Die Abkürzung steht für Reliability, Availability and Serviceability. Die Engine soll für einen störungsfreien Betrieb sorgen und nutzt dafür die eigene KI-Leistung für Preventive Maintenance. Mit Secure AI soll die GPU schließlich sicherstellen, dass Modelle und Daten verschiedener Kunden auf einem System sicher und sauber voneinander getrennt verarbeitet werden.

Für die Verbindung der GPUs untereinander dient ein NV-Link der mittlerweile 5. Generation, der mit einer auf 1,8 GB/s verdoppelten Bandbreite einen bisherigen Flaschenhals beseitigt. Die dafür nötigen NV-Link-Switch-Chips lässt Nvidia ebenso wie die Blackwell GPUs bei TSMC in einem 4NP-Prozess fertigen. Sie bestehen aus 50 Milliarden Transistoren und liefern selbst eine enorme Rechenleistung .

Von der GPU gibt es zwei Varianten: B200 mit bis zu 1.200 Watt Leistungsaufnahme bei Flüssigkeitskühlung und B100 für HGX-Systeme mit acht 700-Watt-SMX-Modulen. Die B100-GPUs sind identisch aufgebaut, arbeiten aber mit geringerer Leistung.

GB200 Superchip, GB200 NVL72 und DGX SuperPOD

Für den GB200 Superchip kombiniert Nvidia auf einer Platine jeweils zwei B200-GPUs und eine Grace-CPU mit 72 ARM-Cores sowie 864 GB schnellen Arbeitsspeicher. Die Verbindung zwischen den GPUs und der CPU wird über NV-Link C2C hergestellt. In einem flüssigkeitsgekühlen GB200 Compute Tray sitzen zwei GB200 Superchips nebeneinander, 18 davon passen in ein Rack. Dazu kommen noch neun ebenfalls flüssigkeitsgekühlte NV-Link Switch Trays mit jeweils zwei NV-Link Switches. Eines der neuen Produkte, das auf dem GB200 Superchip basiert ist der in einem Rack untergebrachte Exascale Computer GB200 NVL72 mit 72 GPUs und 36 CPUs. Ein zusätzlich mit Nvidias Bluefield-3-DPUs ausgestatteter GB200 NVL72 agiert als eine einzige GPU mit 1,4 ExaFLOPS KI-Leistung. Gegenüber einem System mit der selben Anzahl von H100-GPUs soll ein GB200 NVL72 die 30fache-Leistung bei LLM -Inference-Workloads liefern, dabei aber die Leistungsaufnahme und die Kosten massiv reduzieren.

Die GB200-NVL72-Systeme sind auch Bausteine für die KI-Supercomputer DGX SuperPOD, die aus bis zu acht über NV-Link verbundenen Systemen mit zusammen 576 GPUs bestehen. Nvidia wird dies Systeme auch selbst in der eigenen DGX Cloud einsetzen.

DGX B200, HGX B200 und HGX B100

Eine neue kleinere KI-Plattform von Nvidia ist die DGX B200 mit acht B200-GPUs und zwei Xeon-Platinum-8570-CPUs von Intel mit zusammen 112 Cores und bis zu 4 TB Arbeitsspeicher. Sie soll gegenüber einem DGX-H100-System die dreifache Leistung beim Training und die 15fache Performance bein Inferencing liefern. B200-Systeme können ebenfalls als Komponenten für einen DGX SuperPOD dienen. Als Baustein für Systempartner bietet Nvidia aus Blackwell-Basis die Baseboards HGX B200 und und HGX B100 mit acht B200- beziehungsweise acht B100-GPUs an.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

Neue Ethernet- und Infiniband-Switches

Weitere Komponenten für ein KI-Infrastruktur, die tausende von GPUs umfassen soll, sind die Quantum-X800-Plattform für dezidierte KI-Supercomputer wie den eigenen DGX SuperPOD mit GB200-Superchips sowie die Spectrum-X800-Ethernet-Plattform für ein KI-optimiertes Netzwerk im Datacenter. Beide sollen die ersten Netzwerk-Plattformen sein, die einen End-to-End-Datendurchsatz von 800 Gb/s schaffen.

Die Quantum-X800-Plattform besteht aus dem Quantum Q3400 Switch and der ConnectX-8 SuperNIC, die Spectrum-X800-Ethernet-Plattform aus dem Spectrum-SN5600-Switch und der BlueField-3 SuperNIC. Zu den ersten Kunden, die diese Plattformen einsetzen, gehören laut Nvidia Microsoft Azure sowie die Oracle Cloud.

Nvidia NIM: Optimierte Inference Microsevices

Passend zu dem höheren Stellenwert, den das Inferencing bei Nvidia einnimmt, bietet das Unternehmen seinen Kunden als neuen Bestandteil von Nvidia AI Enterprise mit NIM optimierte, Cloud-native Microservices an, mit denen sich Modelle schneller im Unternehmen ausrollen und produktiv nutzen lassen. Sie bestehen aus vorgefertigten Containern für verschiedene Anwendungsbereiche und nutzen Inference Engines die jeweils für spezifische Modelle und die genutzte Hardware optimiert sind. Dabei sind das Feintuning der Modelle und die Verknüpfung mit eigenen Firmendaten ebenfalls möglich.Laut Nvidia ist NIM für eine breite Palette von Nvidia-Hardware nutzbar, von der DGX Cloud, über DGX- und HGXSysteme bis hin zu Workstations, PCs und Notebooks mit RTX-GPUs.

Schnellere Chipfertigung mit KI

Eine sehr spezische Anwendung von KI in der Industrie, die für Nvidia selbst sehr wichtig ist, hat der Hersteller ebenfalls auf der GTC präsentiert: Die Computational Lithography Platform. Der Chiphersteller TSMC, Lieferant für Nvidia, und Synopsis ein führender Anbieter von Lösungen für die Chipentwicklung, nutzen KI für die schnellere Erstellung der Masken für die Lithografie. Diese müssen sich von den späteren Strukturen auf den Wafern unterscheiden, um Brechungseffekte bei der Belichtung auszugleichen. Die Berechnung dieser Unterschiede ist eine zeitintensive Aufgabe, die sich laut Nvidia durch KI und die Nutzung von Nvidia-GPUs erheblich beschleunigen lässt und dabei noch Kosten, Platz und Energie spart. So sollen sich etwa 40.000 PC-Systeme durch gerade einmal 350 Nvidia-H100-GPUs ersetzen lassen. Durch die Nutzung von Generativer KI und Blackwell-GPUs soll sich die Erstellung der Masken noch weiter beschleunigen lassen, verspricht Huang.

(ID:49969038)