Nvidia GTC 2026 Die KI-Fabrik von Nvidia wächst weiter

Von Klaus Länger 5 min Lesedauer

Anbieter zum Thema

Die KI-Fabrik von Nvidia wächst und wächst. Zu den noch leistungsfähigeren GPUs der Rubin-Generation gesellen sich Groq-3-LPUs für Inferenz und Agentic AI sowie die Vera-CPUs für einen CPU-Server. Auch das Software-Ökosystem wird konsequent ausgebaut.

Alles für die KI-Factory: Aus inzwischen 40 Racks besteht der Vera-Rubin-Pod, den der Nvidia-CEO Jensen Huang auf der Nvidia-Hausmesse GTC in Santa Clara vorgestellt hat. Dabei hat der Hersteller inzwischen sieben verschiedene Prozessortypen für unterschiedliche Aufgaben im Einsatz.(Bild:  Nvidia)
Alles für die KI-Factory: Aus inzwischen 40 Racks besteht der Vera-Rubin-Pod, den der Nvidia-CEO Jensen Huang auf der Nvidia-Hausmesse GTC in Santa Clara vorgestellt hat. Dabei hat der Hersteller inzwischen sieben verschiedene Prozessortypen für unterschiedliche Aufgaben im Einsatz.
(Bild: Nvidia)

Nvidia hat das Bild der AI Factory geprägt, in der KI-Anwendungen im großen Stil „wie am Fließband“ arbeiten. Und wie in einer industriellen Fabrik nimmt die Arbeitsteilung immer weiter zu, während die einzelnen Stationen des Fließbandes immer enger verzahnt werden. Und die einzelnen Bestandteile sollen natürlich möglichst von Nvidia stammen, so der Plan von CEO und Firmengründer Jensen Huang.

Bildergalerie
Bildergalerie mit 9 Bildern

Das KI-Fließband von Nvidia

Nvidia ist nicht nur Lieferant für alle großen Serverhersteller, sondern lässt auch eigene Systeme bauen. Sie sind die Komponenten für die AI Factories in den großen KI-Rechenzentren der Hyperscaler oder spezialisierter KI-Anbieter wie Coreweave, Lambda oder Crusoe. Auf der Hausmesse GTC im kalifornischen Santa Clara präsentierte Huang die jüngste Iteration der eigenen KI-Fabrik, Vera Rubin Pod, die sich aus mittlerweile fünf verschiedenen Rack-Scale-Systemen zusammensetzt, in denen nicht weniger als sechs neue Nvidia-Chips zum Einsatz kommen. „Der Wendepunkt für agentische KI ist da: Vera Rubin hat den größten Infrastrukturausbau in der Geschichte eingeleitet“, erklärte Huang in seiner GTC-Keynote.

Das Referenzsystem, das hinter dem Nvidia-CEO auf der Leinwand zu sehen war, besteht aus insgesamt 40 Racks mit zusammen 20 Metern Länge. Sie alle basieren auf der MGX-Rack-Architektur von Nvidia und werden durch Flüssigkeit gekühlt. Die wichtigste Komponente ist das GPU-Rack Vera Rubin NVL72 mit insgesamt 72 Rubin-GPUs mit jeweils 288 GB HBM4 und 36 Vera-CPUs mit jeweils 88 Olympus-ARM-Cores, die auf 1,5 TB LPDDR5x zugreifen. Im Gegensatz zur Grace-CPU mit ihren 72 ARM-Neoverse-V2-Cores nutzt Nvidia hier Custom-Cores mit Spatial Multithreading. Vera soll die erste CPU sein, die FP8 unterstützt. Damit ist Vera für Nvidia nun auch für den Einsatz in reinen CPU-Servern tauglich. Das Vera CPU Rack nimmt bis zu 256 Vera-CPUs auf, die im KI-Workflow beispielsweise für das Testen und Validieren der Ergebnisse der NVL72- und LPX-Racks zuständig sind. Zudem sollen Vera-Racks als Basis für KI-Agenten mit bestärkendem Lernen im großen Maßstab dienen und hier Ergebnisse um 50 Prozent schneller und mit doppelter Effizienz liefern.

Die LPU als neuer Nvidia-Prozessortyp

In den oben erwähnten LPX-Racks arbeitet ein neuer Nvidia-Prozessortyp, die LPU (Language Processing Unit) Groq LP30. Eine LPU ist laut Nvidia für eine schnelle, deterministische Inferenzbeschleunigung optimiert. Auf ihnen können LLMs mit höherer Performance und vor allem mit deutlich geringerem Stromverbrauch laufen, als auf herkömmlichen GPUs. Die Technologie hat Nvidia Ende 2025 vom Startup Groq lizenziert und auch gleich dessen Führungskräfte einschließlich des Gründers Jonathan Ross übernommen. Ross gehörte zuvor zu den Entwicklern von Googles TPU-Technologie. Eine Groq-LP30-LPU ist deutlich kleiner und damit auch sparsamer als eine GPU. Statt HBM kommt hier SRAM als Speicher zum Einsatz. Der ist zwar mit 500 MB vergleichsweise winzig dimensioniert, aber mit einer Bandbreite von 1,2 PB/s rasend schnell. In einem LPX-Rack stecken insgesamt 256 LPUs verteilt auf 32 Trays mit jeweils einer Host-CPU, einer FPGA und einer Bluefield-4-DPU für die interne Vernetzung. Die ebenfalls neue DPU kombiniert eine Vera-CPU und einen ConnectX-9 SuperNIC.

Das Gespann aus Vera-Rubin-NVL72- und LPX-Racks soll bei Inferenz mit sehr großen Modellen, die Billionen von Parametern umfassen, den Durchsatz erheblich steigern. Die Rubin-GPUs sind dabei für den rechenintensiven Prefill-Prozess sowie das Attention-Decoding zuständig, während die LPUs mit ihrem schnellen Speicher Aufgaben übernehmen, bei denen es auf eine sehr niedrige Latenz ankommt, wie das Decoding in Sparse-MoE-Feed-Forward Networks (FFN). Von der im September 2025 angekündigten Inferenz-Lösung Rubin CPX war auf GTC nichts mehr zu hören.

Weitere Bestandteile eines Vera-Rubin-Pods sind STX-Racks für das Auslagern des KV-Cache in einen schnellen Storage-Layer. Die STX-Referenzarchitektur basiert auf der Context Memory Storage Platform (CMX) von Nvidia mit Bluefield-4-DPUs. Nvidia arbeitet hier mit praktisch allen wichtigen Storage- und HCI-Anbietern zusammen.

Komplettiert wird die KI-Fabrik durch das Spectrum-6 SPX Ethernet Rack, das für den Datentransport zwischen den Racks und dem übrigen Datacenter sorgt. Es kann mit Spectrum-X Ethernet- oder Quantum-X800 InfiniBand-Switches konfiguriert werden.

Nvidia Dynamo und Agent Toolkit

Eine produktionsreife Open-Source-Grundlage für generative und agentische Inferenz in großem Maßstab ist Nvidias Dynamo. Die Software soll als eine Art Betriebssystem für eine AI Factory die GPU- und Speicherressourcen im gesamten Cluster orchestrieren, um so dessen Effizienz zu steigern. Für GPUs der Blackwell-Generation verspricht der Hersteller eine um bis zu 7-fach gesteigerte Inferenzleistung und damit gesenkte Token-Kosten. Bei der neuen Vera-Rubin-Generation mit LPX-Racks ist Dynamo der Orchestrierungs-Layer, der die unterschiedlichen Aufgaben auf GPUs und LPUs verteilt. Auf dem GTC hat Nvidia die allgemeine Verfügbarkeit von Dynamo 1.0 bekanntgegeben.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Eine Stufe darüber ist das aus Open-Source-Software bestehende Agent Toolkit angesiedelt, das Open-Source-Modelle und Software für Unternehmen und unabhängige Entwickler zusammenfasst. Ein wichtiger Bestandteil ist die Open-Source-Runtime OpenShell, die richtlinienbasierte Sicherheits-, Netzwerk- und Datenschutz-Guardrails durchsetzt und so autonome Agenten und Claws sicher machen soll. AI-Q Blueprints sollen zusammen mit dem NeMo Agent Toolkit die Entwicklung von KI-Agenten beschleunigen.

KI für kleinere Datacenter

Für das Gros der Enterprise-Unternehmen ist ein Vera Rubin Pod überdimensioniert. Sie bedient Nvidia mit dem immer noch leistungsstarken DGX Rubin NVL8. Der flüssigkeitsgekühlte 2U-Server kombiniert acht Rubin-GPUs mit zusammen 2,3 TB HBM4 und zwei Intel-Xeon-Prozessoren als Host-CPUs. Verwendet werden dabei zwei Xeon 6776P aus der aktuellen Granite-Rapids-Generation, die bereits im Zusammenspiel mit Blackwell-GPUs verwendet wurden. Die Prozessoren mit jeweils 64 P-Cores verfügen über acht Speicherkanäle und 88 PCI-Express-5.0-Lanes.

Für das optimale Zusammenspiel mit den Rubin-GPUs sollen zwei Funktionen für höhere Taktfrequenzen sorgen: Priority Core Turbo und Speed Select Technology – Technology Frequency (SST-TF). Die erste Funktion erhöht die Taktfrequenz der CPU-Cores, die speziell einer GPU zugeordnet sind, um dieser eine maximale Auslastung zu ermöglichen. Die zweite Funktion kann Taktfrequenzen abhängig von der tatsächlichen Auslastung der einzelnen Kerne steuern.

Vera-Rubin-, Rubin- und auch Vera-Systeme unterschiedlicher Größe vom Rubin-HGX-Server bis hin zur NVM72-Plattform kommen auch von OEM-Herstellern wie Cisco, Dell Technologies, HPE, Lenovo und Supermicro. Asus, Foxconn, Gigabyte, Inventec, Pegatron, Quanta Cloud Technology (QCT), Wistron und Wiwynn werden ebenfalls entsprechende Produkte auf den Markt bringen.

(ID:50788330)