Pure Storage Flashblade//EXA und Nvidia-Kooperation KI-Storage-Lösung für AI Factories

Von Klaus Länger 4 min Lesedauer

Anbieter zum Thema

Mit Flashblade//EXA stellt Pure Storage eine Speicherlösung vor, die Flashblade-Appliances für Metadaten mit Standard-Storage-Servern für Daten kombiniert, um so eine sehr hohe Performance zu erreichen. Zudem wird die Zusammenarbeit mit Nvidia ausgebaut.

Die Flashblade-Systeme dienen bei der Flashblade//EXA-Lösung als hochperformanter Speicher für Metadaten. Sie sind aus 10 Blades mit eigenem Controller und jeweils bis zu vier Direct-Flash-Modulen aufgebaut.(Bild:  Pure Storage)
Die Flashblade-Systeme dienen bei der Flashblade//EXA-Lösung als hochperformanter Speicher für Metadaten. Sie sind aus 10 Blades mit eigenem Controller und jeweils bis zu vier Direct-Flash-Modulen aufgebaut.
(Bild: Pure Storage)

Zwischen den Hyperscalern mit ihren gigantischen KI-Clustern und Unternehmen, die selbst KI-Anwendungen in kleinerem Maßstab betreiben, gibt es eine ganze Reihe von Firmen und Institutionen, die KI in einer Form betreiben, die Pure Storage als AI Factory bezeichnet. Zu ihnen zählen globale Unternehmen, spezialisierte GPU-Clouds und KI-Dienstleister sowie KI- und HPC-Forschungseinrichtungen, die zwischen 1.000 und einigen 10.000 GPUs einsetzen und mehr als 100 PB an Datenspeicher benötigen. Für diese Kunden hat Pure Storage die KI-Lösung Flashblade//EXA entwickelt.

Flashblade für Metadaten

Beim Training von großen Sprachmodellen kommt es darauf an, den GPU-Cluster möglichst schnell mit Trainingsdaten zu versorgen, damit die kostspieligen GPUs optimal ausgelastet sind. Viele HPC-Anwendungen sind ebenfalls dafür ausgelegt, dass große Datenmengen mit hoher Bandbreite zur Verfügung stehen. Zu einem Engpass können hier die Metadaten werden, da speziell beim KI-Training sehr viele unstrukturierte Dateien genutzt werden, die mit Metadaten angereichert sind, um dem LLM zusätzlichen Kontext zu liefern.

Laut dem Hersteller haben bisherige Ansätze zur Datenspeicherung das Potenzial von KI eher eingeschränkt, das soll mit der Flashblade//EXA-Lösung nicht mehr der Fall sein. Deren disaggregierte und massiv parallele Architektur skaliert Daten und Metadaten unabhängig voneinander. Dabei sind Flashblade-Systeme für die Metadaten zuständig und handelsübliche Data Nodes von Drittanbietern für die Daten. Der aus den Flashblades bestehende Metadata-Core sowie die Data Nodes sind jeweils über ein Hochgeschwindigkeitsnetz mit 400 GbE mit dem aus den GPU-Servern aufgebauten Compute-Cluster verbunden. Dabei nutzt der Hersteller Parallel NFS (pNFS) als Teil von NFS v4.1 für die Metadaten und NFSv3 über RDMA für die Übertragung der Daten. Zudem werden zwischen dem Metadata-Core und den Data-Nodes noch Control-Informationen übertragen.

Die Flashblade-Systeme entsprechen den Flashblade//S-Modellen mit einem 5U-Chassis für 10 Blades und bis zu vier Direct-Flash-Modules (DFM) mit jeweils 37,5 TB Kapazität pro Blade. Dazu kommen noch zwei External Fabric Module (XFM). Auf den Blades läuft ein für pNFS optimiertes Purity/FB als Betriebssystem. Ein Metadata-Core kann laut dem Hersteller zwischen einem und zehn Flashblades umfassen.

Bildergalerie

Standard-Server für die Data-Nodes

Für die Data-Nodes werden zunächst Standard-Server verwendet, die günstiger sind als derzeitige Pure-Storage-Systeme und für ihre Aufgaben ausreichen. Der Hersteller sieht hier 1U- oder 2U-Systeme mit mindestens einer 32-Core-CPU, 192 GB RAM, zwei 400-GbE-Ports und 12 bis 16 NVMe-SSDs vor. Hier seien PCIe-Gen5-Drives vorzuziehen. Auf den Nodes läuft ein schlankes, Linux-basiertes Betriebssystem mit Volume-Management und RDMA-Target-Services, das für die Zusammenarbeit mit den Flashblade-Metadata-Core optimiert ist. Für das automatisierte Management soll Ansible verwendet werden.

Laut Markus Grau, Principal Technologist bei Pure Storage, plant der Hersteller demnächst allerdings die Einführung eigener Systeme. Geplant sind 2U-Rack-Units mit 24 DFMs, die mit 75 oder 150 TB Speicherplatz für eine Gesamtkapazität von 1,8 oder 3,6 PB pro Node sorgen sollen.

Markus Grau, Principal Technologist bei Pure Storage.(Bild:  Pure Storage)
Markus Grau, Principal Technologist bei Pure Storage.
(Bild: Pure Storage)

Vorteile gegenüber NAS und parallelen Filesystemen

Wie Grau ausführt, reichen die Performance und die Skalierbarkeit traditioneller NAS-Systeme nicht aus, um die riesige Menge paralleler Dateizugriffe bewältigen zu können, die bei großen KI-Anwendungen nötig sind. Herkömmliche parallele Filesysteme wie Lustre können zwar die nötige Performance ermöglichen, hätten aber Nachteile durch eine komplexe Netzwerkstruktur und ein aufwändiges Management. Zudem sei die Latenz bei Metadaten-Zugriffen höher. Zudem können die Pure-Storage-Lösung bis zu 20 mal mehr Dateien in einem Namespace verwalten.

Flashblade/EXA könne bei Lesezugriffen eine Performance von bis zu 3,4 TB/s pro Rack und 10 TB/s in einem einzigen Namespace liefern, sagt Grau. Die Schreibperformance könne bei bis zu 50 Prozent der Leseleistung liegen. Damit liefere Pure Storage das beste Preis-Leistungs-Verhältnis im Markt.

Der Test von Flashblade/EXA hat bereits bei ausgewählten Kunden begonnen, die allgemeine Verfügbarkeit der Lösung wird für den Sommer angepeilt. Weitere Schritte sind die Einführung von S3 über RDMA, die Integration in die eigene Automatisierungsplattform Fusion und die Zertifizierung durch Nvidia.

Erweiterte Kooperation mit Nvidia

Auf der GTC am 18. März hat Nvidia die Referenzarchitektur AI Data Platform vorgestellt, auf deren Basis zertifizierte Storage-Partner Infrastrukturen für anspruchsvolle KI-Inferenz-Workloads realisieren, bei denen Nvidias AI-Enterise-Software zum Einsatz kommt. Der Chip- und Softwarehersteller nennt hier mit NIM seine KI-Microservices mit neuen Llama-Nemotron-Modellen mit Reasoning-Fähigkeiten für fortgeschrittene KI-Agenten. Zu den Storage-Partnern zählt auch Pure Storage mit seinen Flashblade-Systemen. Zudem wurden Systeme des Herstellers als High-Performance-Storage-Plattform (HPS) für die Cloud-Partner des Nvidia-Partnernetzwerks zertifiziert. Sie können nun dort mit Nvidia-HGX-Systemen genutzt werden, die auf B200- oder H200-GPUs aufbauen. Das Flashblade//S500-System wurde kürzlich für NvidiasDGX Superpod zertifiziert.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

(ID:50364249)