Intel Xeon 6900P und Gaudi 3 Xeon 6 mit P-Cores und Gaudi 3 jetzt verfügbar

Von Klaus Länger 4 min Lesedauer

Anbieter zum Thema

Nach dem Xeon 6 mit E-Cores bringt Intel nun die P-Core-Variante des Prozessors. Granite Rapids, so der Codename der CPU, kann mit bis zu 128 Kernen aufwarten, ein gewaltiger Sprung für Intel. Zudem wird der KI-Beschleuniger Gaudi 3 allgemein verfügbar.

Mit bis zu 128 Redwood-Cove-P-Cores sollen die Xeon-9600P-Prozessoren endlich wieder die Leistungskrone unter den x86-Server-CPUs erringen. Das schafft der KI-Beschleuniger Gaudi 3 zwar nicht, denn er soll lediglich Nvidias H100-Tensor-Core-GPU schlagen können. Dafür überzeugt er laut Intel durch ein gutes Preis-Leistungs-Verhältnis.(Bild:  Intel Corporation)
Mit bis zu 128 Redwood-Cove-P-Cores sollen die Xeon-9600P-Prozessoren endlich wieder die Leistungskrone unter den x86-Server-CPUs erringen. Das schafft der KI-Beschleuniger Gaudi 3 zwar nicht, denn er soll lediglich Nvidias H100-Tensor-Core-GPU schlagen können. Dafür überzeugt er laut Intel durch ein gutes Preis-Leistungs-Verhältnis.
(Bild: Intel Corporation)

Bisher hatte Intel bei Server-Prozessoren immer das Problem, dass AMD bei den Epyc-Prozessoren deutlich mehr Prozessorkerne bieten konnte als die Xeons. AMDs Epyc-9004-Prozessoren der Genoa-Familie verfügen über bis zu 96 Zen-4-Cores und 192 Threads, die Bergamo-Modelle sogar über bis zu 128 Zen4c-Cores und 256 Threads, allerdings bei kleinerem Cache.

Diesen Rückstand hat Intel nun mit den Xeon-Prozessoren der Serie 9600P aufgeholt, die ab jetzt verfügbar sind. Denn hier sitzen nun ebenfalls bis zu 128 Cores auf den insgesamt drei Compute-Tiles, die gemeinsam mit zwei IO-Tiles den Prozessor bilden. Somit bietet die CPU bis zu 256 Threads.

Granite Rapids, so der Codename der neuen CPU, ist die Performance-Variante von Xeon 6, bei der P-Cores der Redwood-Cove-Generation für die Rechenleistung zuständig sind. Der auf der Computex vorgestellte Xeon 6700E bietet zwar bis zu 144 Kerne, allerdings nur langsamere E-Cores ohne Hyperthreading. Diese Prozessoren der Sierra-Forest-Baureihe sind denn auch eher für Anwendungen bestimmt, bei denen es auf viele aber sparsame Kerne ankommt, wie etwa das Webhosting. Granite Rapids soll dagegen mit einer deutlich höheren Leistung für rechenintensive Workloads aufwarten, genehmigt sich allerdings dafür auch bis zu 500 Watt TDP. Die Compute-Tiles von Granite Rapids fertigt Intel selbst im Intel-3-Prozess, für die IO-Tiles reicht der kostengünstigere Intel-7-Prozess aus.

Im ersten Quartal 2025 folgen die Xeon-Serien 6700P, 6500P und 6300P mit maximal 86, 48 und 16 Cores und entsprechend weniger Speicherkanälen. Sie sind dann für den kleineren Sockel FCLGA4710 bestimmt. Für den großen Sockel LGA7529 der Serie 9600P kommt ebenfalls Anfang 2025 der Sierra-Forest-Xeon 6900E mit bis zu 288 E-Cores. Bereits im Oktober will AMD die Zen-5-Epyc-Modelle der Turin-Generation vorstellen, an denen sich Granite Rapids dann messen muss.

Bildergalerie
Bildergalerie mit 11 Bildern

Mehr Kerne und höhere Leistung pro Kern

Die Xeon-9600P-Familie besteht aus sechs Modellen mit 72, 96, 120 und 128 Prozessorkernen. Der L3-Cache ist damit zwischen zwischen 432 und 504 MB groß. Zudem stecken in jedem der Redwood-Cove-Cores noch 2 MB L2-Cache. Alle Prozessoren verfügen über 12-DDR5-Speicherkanäle. Bei zwei Speichermodulen pro Kanal unterstützen sie maximal DDR5-5200, bei einem Modul DDR5-6400. Kommt es primär auf den Speicherdurchsatz an, dann sind sogar bis zu 8.800 MT/s Datendurchsatz möglich. Denn als erster Prozessor unterstützt Granite Rapids die neuen Multiplexed-Rank-DIMMs (MRDIMM) ebenfalls mit einem Modul pro Kanal. MRDIMMs kombinieren im Prinzip mit Hilfe eines zusätzlichen zwei DDR5-DIMMs auf einem Modul und verdoppeln so die Bandbreite.

Zudem unterstützt der Prozessor Compute Express Link 2.0 (CXL 2.0) für alle drei Typen und für CLX Memory einen vom Betriebssystem unabhängigen Flat-Memory-Modus. Er soll durch die Verwendung von bis zu 768 GB DDR4 als CXL-Far-Memory die Kosten senken. Die Leistung soll dabei nur um etwa drei Prozent sinken, verspricht Intel. Insgesamt bieten die Granite-Rapids-Prozessoren bis zu 96 PCI-Express-Gen5-Links, die sich auch für CXL 2.0 nutzen lassen.

Zwei verschiedene Clustering-Modi für den Zugriff auf den Speicher sollen unterschiedliche Anwendungen jeweils mit optimaler Performance laufen lassen. Der per Default aktivierte SNC3-Modus mit einem NUMA-Node pro Compute-Die ist laut Intel für Anwendungen, die mit NUMA-Systemen umgehen können, optimal, da hier die Latenzen niedriger sind. Für andere Anwendungen gibt es den HEX-Modus, bei dem alle drei Compute-Dies einen NUMA-Knoten bilden.

Die unterschiedlichen Xeon-9600P-Modelle im Überblick(Bild:  Intel Corporation)
Die unterschiedlichen Xeon-9600P-Modelle im Überblick
(Bild: Intel Corporation)

Für die Verbindung der maximal zwei Prozessoren pro Mainboard oder Node dienen zwei UPI-2.0-Links. Bei Systemen mit vier oder acht Prozessoren müssen also weiterhin Sapphire-Rapids-Prozessoren mit maximal 60 Cores pro CPU verwendet werden.

Im Vergleich zu Emerald Rapids, also der 5. Xeon-Scalable-Generation, stellt Intel eine 1,2-fache Leistung pro Core und eine um den Faktor 1,6 höhere Leistung pro Watt in Aussicht. Bei vergleichbarer Leistung soll die durchschnittliche TCO um 30 Prozent sinken.

Für spezielle Aufgaben sind auch bei Granite Rapids die aus den Vorgängern bekannten Beschleuniger an Bord: der Data Streaming Accelerator (DSA), ein In-Memory Analytics Accelerator (IAA), der Dynamic Load Balancer (DLB) sowie QuickAssist Technology (QAT) für Datenkompression und Verschlüsselung.

Laut Intel soll Granite Rapids zudem der beste Prozessor für KI-Anwendungen sein. Er bietet ebenso wie seine Vorgänger neben AVX2 und AVX-512 zusätzlich die Advanced Matrix Extensions (AMX). Allerdings soll AMX beim Xeon 6 mit 96 P-Cores bei KI-Anwendungen wie einem LLM-Chatbot, KI-Zusammenfassungen, Sprachverarbeitung oder Bildklassifizierung die bis zu doppelte Leistung von Emerald Rapids mit 64 Cores liefern. Einen AMD Epyc mit 96 Cores soll Granite Rapids noch deutlicher schlagen, da der AMD-Prozessor nicht über eine eigene Matrix-Engine verfügt.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Gaudi 3 für leistungshungrige KI-Anwendungen

Der KI-Beschleuniger Gaudi 3 ist nun endlich allgemein verfügbar. Der vom Intel-Tochterunternehmen Habana Labs entwickelte Chip verfügt über 64 Tensor-Prozessor-Cores, acht Matrix Multiplication Engines, 96 MB SRAM und 8 HBMe2-Stacks mit zusammen 128 GB Speichergröße und 3,7 TB/s Bandbreite. Zudem enthält er noch 24 200GbE-Ports für die skalierbare Vernetzung. Damit soll der Chip schnell genug sein, um bei GenAI-Anwendungen den Nvidia-Tensor-Core-GPUs H100 und H200 Konkurrenz zu machen. Dabei soll Gaudi 3 nicht nur in der Anschaffung weniger kosten als die Nvidia-Chips, sondern durch die Verwendung von Ethernet für die Chip-zu-Chip-Verbindung auch die Kosten für die Netzwerk-Infrastruktur reduzieren.

Gaudi 3 kommt in mehreren Varianten auf den Markt: Als OAM-Karte HL-325L, als Universal Baseboard HLB-325 mit acht Prozessormodulen und als Dual-Slot-PCI-Express-Karte mit 600 Watt TDP.

Erste OEM-Systeme mit Gaudi 3 kommen im Oktober. Von Dell der PowerEdge XE6980 und von Supermicro der schon mit Xeon 6 als Host-CPUs bestückte X14. Gemeinsam mit Dell arbeitet Intel zudem an Systemen für Retrieval-Augmented Generation (RAG). Für die Evaluierung der KI-Lösungen rüstet der Prozessorhersteller die eigene Tiber-Development-Cloud mit Xeon-6- und Gaudi-3-Systemen aus. Letztere allerdings nur für ausgewählte Kunden. Parallel dazu wird das Software-Ökosystem für die neuen Prozessoren optimiert.

(ID:50177795)