Die KI-Fabrik von Nvidia wächst und wächst. Zu den noch leistungsfähigeren GPUs der Rubin-Generation gesellen sich Groq-3-LPUs für Inferenz und Agentic AI sowie die Vera-CPUs für einen CPU-Server. Auch das Software-Ökosystem wird konsequent ausgebaut.
Alles für die KI-Factory: Aus inzwischen 40 Racks besteht der Vera-Rubin-Pod, den der Nvidia-CEO Jensen Huang auf der Nvidia-Hausmesse GTC in Santa Clara vorgestellt hat. Dabei hat der Hersteller inzwischen sieben verschiedene Prozessortypen für unterschiedliche Aufgaben im Einsatz.
(Bild: Nvidia)
Nvidia hat das Bild der AI Factory geprägt, in der KI-Anwendungen im großen Stil „wie am Fließband“ arbeiten. Und wie in einer industriellen Fabrik nimmt die Arbeitsteilung immer weiter zu, während die einzelnen Stationen des Fließbandes immer enger verzahnt werden. Und die einzelnen Bestandteile sollen natürlich möglichst von Nvidia stammen, so der Plan von CEO und Firmengründer Jensen Huang.
Nvidia ist nicht nur Lieferant für alle großen Serverhersteller, sondern lässt auch eigene Systeme bauen. Sie sind die Komponenten für die AI Factories in den großen KI-Rechenzentren der Hyperscaler oder spezialisierter KI-Anbieter wie Coreweave, Lambda oder Crusoe. Auf der Hausmesse GTC im kalifornischen Santa Clara präsentierte Huang die jüngste Iteration der eigenen KI-Fabrik, Vera Rubin Pod, die sich aus mittlerweile fünf verschiedenen Rack-Scale-Systemen zusammensetzt, in denen nicht weniger als sechs neue Nvidia-Chips zum Einsatz kommen. „Der Wendepunkt für agentische KI ist da: Vera Rubin hat den größten Infrastrukturausbau in der Geschichte eingeleitet“, erklärte Huang in seiner GTC-Keynote.
Das Referenzsystem, das hinter dem Nvidia-CEO auf der Leinwand zu sehen war, besteht aus insgesamt 40 Racks mit zusammen 20 Metern Länge. Sie alle basieren auf der MGX-Rack-Architektur von Nvidia und werden durch Flüssigkeit gekühlt. Die wichtigste Komponente ist das GPU-Rack Vera Rubin NVL72 mit insgesamt 72 Rubin-GPUs mit jeweils 288 GB HBM4 und 36 Vera-CPUs mit jeweils 88 Olympus-ARM-Cores, die auf 1,5 TB LPDDR5x zugreifen. Im Gegensatz zur Grace-CPU mit ihren 72 ARM-Neoverse-V2-Cores nutzt Nvidia hier Custom-Cores mit Spatial Multithreading. Vera soll die erste CPU sein, die FP8 unterstützt. Damit ist Vera für Nvidia nun auch für den Einsatz in reinen CPU-Servern tauglich. Das Vera CPU Rack nimmt bis zu 256 Vera-CPUs auf, die im KI-Workflow beispielsweise für das Testen und Validieren der Ergebnisse der NVL72- und LPX-Racks zuständig sind. Zudem sollen Vera-Racks als Basis für KI-Agenten mit bestärkendem Lernen im großen Maßstab dienen und hier Ergebnisse um 50 Prozent schneller und mit doppelter Effizienz liefern.
Die LPU als neuer Nvidia-Prozessortyp
In den oben erwähnten LPX-Racks arbeitet ein neuer Nvidia-Prozessortyp, die LPU (Language Processing Unit) Groq LP30. Eine LPU ist laut Nvidia für eine schnelle, deterministische Inferenzbeschleunigung optimiert. Auf ihnen können LLMs mit höherer Performance und vor allem mit deutlich geringerem Stromverbrauch laufen, als auf herkömmlichen GPUs. Die Technologie hat Nvidia Ende 2025 vom Startup Groq lizenziert und auch gleich dessen Führungskräfte einschließlich des Gründers Jonathan Ross übernommen. Ross gehörte zuvor zu den Entwicklern von Googles TPU-Technologie. Eine Groq-LP30-LPU ist deutlich kleiner und damit auch sparsamer als eine GPU. Statt HBM kommt hier SRAM als Speicher zum Einsatz. Der ist zwar mit 500 MB vergleichsweise winzig dimensioniert, aber mit einer Bandbreite von 1,2 PB/s rasend schnell. In einem LPX-Rack stecken insgesamt 256 LPUs verteilt auf 32 Trays mit jeweils einer Host-CPU, einer FPGA und einer Bluefield-4-DPU für die interne Vernetzung. Die ebenfalls neue DPU kombiniert eine Vera-CPU und einen ConnectX-9 SuperNIC.
Das Gespann aus Vera-Rubin-NVL72- und LPX-Racks soll bei Inferenz mit sehr großen Modellen, die Billionen von Parametern umfassen, den Durchsatz erheblich steigern. Die Rubin-GPUs sind dabei für den rechenintensiven Prefill-Prozess sowie das Attention-Decoding zuständig, während die LPUs mit ihrem schnellen Speicher Aufgaben übernehmen, bei denen es auf eine sehr niedrige Latenz ankommt, wie das Decoding in Sparse-MoE-Feed-Forward Networks (FFN). Von der im September 2025 angekündigten Inferenz-Lösung Rubin CPX war auf GTC nichts mehr zu hören.
Weitere Bestandteile eines Vera-Rubin-Pods sind STX-Racks für das Auslagern des KV-Cache in einen schnellen Storage-Layer. Die STX-Referenzarchitektur basiert auf der Context Memory Storage Platform (CMX) von Nvidia mit Bluefield-4-DPUs. Nvidia arbeitet hier mit praktisch allen wichtigen Storage- und HCI-Anbietern zusammen.
Komplettiert wird die KI-Fabrik durch das Spectrum-6 SPX Ethernet Rack, das für den Datentransport zwischen den Racks und dem übrigen Datacenter sorgt. Es kann mit Spectrum-X Ethernet- oder Quantum-X800 InfiniBand-Switches konfiguriert werden.
Eine produktionsreife Open-Source-Grundlage für generative und agentische Inferenz in großem Maßstab ist Nvidias Dynamo. Die Software soll als eine Art Betriebssystem für eine AI Factory die GPU- und Speicherressourcen im gesamten Cluster orchestrieren, um so dessen Effizienz zu steigern. Für GPUs der Blackwell-Generation verspricht der Hersteller eine um bis zu 7-fach gesteigerte Inferenzleistung und damit gesenkte Token-Kosten. Bei der neuen Vera-Rubin-Generation mit LPX-Racks ist Dynamo der Orchestrierungs-Layer, der die unterschiedlichen Aufgaben auf GPUs und LPUs verteilt. Auf dem GTC hat Nvidia die allgemeine Verfügbarkeit von Dynamo 1.0 bekanntgegeben.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Eine Stufe darüber ist das aus Open-Source-Software bestehende Agent Toolkit angesiedelt, das Open-Source-Modelle und Software für Unternehmen und unabhängige Entwickler zusammenfasst. Ein wichtiger Bestandteil ist die Open-Source-Runtime OpenShell, die richtlinienbasierte Sicherheits-, Netzwerk- und Datenschutz-Guardrails durchsetzt und so autonome Agenten und Claws sicher machen soll. AI-Q Blueprints sollen zusammen mit dem NeMo Agent Toolkit die Entwicklung von KI-Agenten beschleunigen.
KI für kleinere Datacenter
Für das Gros der Enterprise-Unternehmen ist ein Vera Rubin Pod überdimensioniert. Sie bedient Nvidia mit dem immer noch leistungsstarken DGX Rubin NVL8. Der flüssigkeitsgekühlte 2U-Server kombiniert acht Rubin-GPUs mit zusammen 2,3 TB HBM4 und zwei Intel-Xeon-Prozessoren als Host-CPUs. Verwendet werden dabei zwei Xeon 6776P aus der aktuellen Granite-Rapids-Generation, die bereits im Zusammenspiel mit Blackwell-GPUs verwendet wurden. Die Prozessoren mit jeweils 64 P-Cores verfügen über acht Speicherkanäle und 88 PCI-Express-5.0-Lanes.
Für das optimale Zusammenspiel mit den Rubin-GPUs sollen zwei Funktionen für höhere Taktfrequenzen sorgen: Priority Core Turbo und Speed Select Technology – Technology Frequency (SST-TF). Die erste Funktion erhöht die Taktfrequenz der CPU-Cores, die speziell einer GPU zugeordnet sind, um dieser eine maximale Auslastung zu ermöglichen. Die zweite Funktion kann Taktfrequenzen abhängig von der tatsächlichen Auslastung der einzelnen Kerne steuern.
Vera-Rubin-, Rubin- und auch Vera-Systeme unterschiedlicher Größe vom Rubin-HGX-Server bis hin zur NVM72-Plattform kommen auch von OEM-Herstellern wie Cisco, Dell Technologies, HPE, Lenovo und Supermicro. Asus, Foxconn, Gigabyte, Inventec, Pegatron, Quanta Cloud Technology (QCT), Wistron und Wiwynn werden ebenfalls entsprechende Produkte auf den Markt bringen.