Kosten senken durch SSD-Einsatz Flash wird zum Gamechanger beim KI-Training

Ein Gastbeitrag von Axel Störmann* 6 min Lesedauer

Anbieter zum Thema

Viele Unternehmen meiden Cloud-KI, da sensible Trainingsdaten nicht extern verarbeitet werden sollen. Lokales Training ist teuer, doch neue Technologien könnten günstigeren Flash-Speicher statt teuren DRAM ermöglichen.

SSDs können eine zentrale Rolle beim Training von KI-Modellen spielen.(Bild:  Midjourney / KI-generiert)
SSDs können eine zentrale Rolle beim Training von KI-Modellen spielen.
(Bild: Midjourney / KI-generiert)

Künstliche Intelligenz ist eine transformative Kraft, die ganze Branchen verändert. Sie ist unglaublich vielseitig und kann überall dort zum Einsatz kommen, wo Sprache, Bilder und große Datenmengen ausgewertet, Abläufe automatisiert und Entscheidungen verbessert werden sollen. Für viele Anwendungsfälle sind die großen KI-Modelle aus der Public Cloud allerdings ungeeignet – denn zum einen ist oft nicht deren breites Allgemeinwissen, sondern sehr spezifisches Fachwissen gefragt, und zum anderen würde die Datenübertragung in die Cloud und das Warten auf ein Ergebnis in zahlreichen Anwendungsfällen für zu große Verzögerungen sorgen. Steuert die KI beispielsweise Roboter, autonome Fahrzeuge, Produktionsanlagen oder IoT-Geräte, ist eine möglichst geringe Latenz wichtig, um in Echtzeit auf Ereignisse reagieren zu können.

Kostenfrage

In solchen Anwendungsfällen läuft die KI daher auf den Systemen und Geräten selbst oder auf Edge-Servern in ihrer Nähe. Diese sind für das Inferencing – also das Berechnen von Ergebnissen auf Basis der trainierten KI-Modelle – häufig mit speziellen Hardware-Komponenten ausgestattet. Hierzu zählen etwa Neural Processing Units (NPU), die CPUs und eventuell vorhandene GPUs ergänzen, sowie optimierte Speicher. Je nach Anwendungsfall sind die Speicher dafür ausgelegt, die als Input für KI-Entscheidungen dienenden Sensordaten zuverlässig aufzufangen oder KI-Modelle und Daten schnell zu laden. Neue Produkte mit Storage Class Memory (SCM) wie dem von KIOXIA entwickelten XL-Flash erfüllen besonders hohe Leistungsanforderungen und können den hohen DRAM-Bedarf senken, sodass die KI-Nutzung kostengünstiger wird.

Der Hauptkostentreiber bleibt für Unternehmen jedoch das Training von eigenen KI-Modellen beziehungsweise das Anreichern bestehender Modelle mit eigenen Daten durch Fine-Tuning oder Retrieval-Augmented Generation (RAG). Alle drei Varianten dienen der Verbesserung von generativer KI und verlangen nach vielen firmenspezifischen Daten. Aus diesem Grund können und sollen Training, Fine-Tuning und RAG in der Regel nicht in der Public Cloud erfolgen: Zum einen ist die Übertragung der großen Datenmengen äußerst aufwendig, zum anderen dürfen wertvolle Informationen – etwa aus der Forschung und Entwicklung oder zu Produktionsabläufen – nicht außer Haus gelangen.

Offloading von Arbeitslasten

Durch eine sorgfältige Auswahl der KI-Modelle und Daten können Unternehmen die Hardware-Anforderungen bei der Modellanpassung reduzieren. Dennoch bleibt der Ressourcenbedarf hoch, weshalb bei KI-Anbietern, Hyperscalern sowie Herstellern von IT-Systemen und Komponenten eifrig nach Optimierungsmöglichkeiten gesucht wird. Dem chinesischen Unternehmen DeepSeek ist es beispielsweise vor kurzem gelungen, seine Modelle mit deutlich weniger leistungsstarken GPUs als die amerikanischen Marktführer zu trainieren. Und auch im Speicherbereich steckt noch einiges Potenzial, wie aktuelle Entwicklungen zeigen. So erlaubt es die von KIOXIA jüngst als Open Source veröffentlichte Software AiSAQ, die Indexdaten von Vektordatenbanken für RAG auf SSDs bereitzustellen, sodass sie nicht mehr in den DRAM geladen werden müssen.

RAG ist eine beliebte Methode, um KI mit unternehmensspezifischen Daten zu versorgen. Anders als beim Fine-Tuning werden die Daten dem Modell nicht antrainiert, sondern ihm in einer Vektordatenbank zur Verfügung gestellt, sodass es bei der Generierung von Ausgaben dort nachschlagen kann. Dabei wird eine sogenannte „Approximate Nearest Neighbor Search“ (ANNS) durchgeführt, um relevante Informationen zu identifizieren. Der Vorgang findet üblicherweise im Arbeitsspeicher statt, sodass die Wartezeiten für Anwender gering bleiben. AiSAQ – kurz für „All-in-Storage ANNS with Product Quantization“ – ist nun ein neuartiger Algorithmus für die Suche auf SSDs.

Damit reduziert AiSAQ den DRAM-Bedarf und die Kosten von RAG deutlich, insbesondere bei großen Datenbanken. Da das Laden der Indexdaten in den DRAM entfällt, kann die Vektordatenbank direkt genutzt werden, was den Wechsel zwischen verschiedenen Datenbanken – etwa mit benutzer- und anwendungsspezifischen Informationen – beschleunigt. Zudem lassen sich die Indizes über mehrere SSDs verteilen, was ideal für den Einsatz innerhalb einer Private Cloud im Rechenzentrum ist, aber auch die Migration von Suchinstanzen zwischen physischen Servern erleichtert.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Flash ergänzt DRAM

Eine andere Möglichkeit, bestehende KI-Modelle zu verbessern, ist das bereits erwähnte Fine-Tuning – im Grunde eine Art zusätzliches Training mit unternehmensspezifischen Daten. Es kann in Kombination mit RAG genutzt werden: Das Fine-Tuning sorgt dann für eine Verbesserung des Sprachverständnisses und der generativen Fähigkeiten des Modells, während RAG stets aktuelle Daten liefert, selbst wenn sich die interne Wissensbasis regelmäßig verändert.

Sowohl das Training als auch das Fine-Tuning von KI-Modellen stellen hohe Anforderungen an die Hardware, darunter den Arbeitsspeicher, in dem Programmcode ausgeführt wird und Daten vorgehalten werden. Wäre es möglich, den Arbeitsspeicher durch SSDs zu entlasten, ergäbe sich ein erhebliches Einsparpotenzial. SSDs können zwar von der Schreibleistung her nicht mit DRAM mithalten und anders als dieser auch nicht unendlich oft beschrieben werden. Doch da der größte Teil der Zugriffe auf den Speicher beim Training und Fine-Tuning lesend erfolgt, kommen SSDs durchaus als Ergänzung infrage – wenn auch keine Standard-SSDs.

Hersteller wie KIOXIA arbeiten allerdings schon an Modellen mit Storage Class Memory, die mit kleineren Seitengrößen als üblich das extrem schnelle Auslesen von Datenblöcken erlauben. Damit kommen SCM-SSDs von der Leseleistung nah an DRAM heran, und das zu deutlich geringeren Kosten. Darüber hinaus können sie auch die Betriebskosten senken, da SCM weniger Strom als DRAM verbraucht und weniger Wärme produziert, die durch aufwendige Kühlmechanismen abgeführt werden muss.

Als Schnittstelle für diese SSDs kann neben aktuellen und kommenden PCIe-Generationen künftig auch CXL (Compute Express Link) genutzt werden. CXL setzt auf denselben Steckverbinder, ist aber schneller. Es wurde ursprünglich für den Datenaustausch zwischen Arbeitsspeicher und Prozessoren entwickelt, eignet sich jedoch auch für die Anbindung von SSDs an CPUs und GPUs.

Räumliche Trennung von Compute und Storage

Eine weitere Möglichkeit, die KI-Entwicklung durch Flash-basierte Speicher effizienter zu gestalten, sind SSDs mit optischer Schnittstelle. Eine solche verbessert nicht nur die Signalintegrität, sondern ermöglicht auch eine größere Entfernung zwischen den SSDs, die Trainingsdaten bereitstellen, und den Servern, die sie verarbeiten. Die Server können auf die entfernten SSDs wie auf lokal angeschlossene Speichermedien zugreifen, wobei sich in Demonstrationen von KIOXIA bereits 40 Meter überbrücken lassen – künftig sollen es bis zu 100 Meter werden.

Optische SSDs erlauben es, Compute- und Storage-Ressourcen räumlich zu trennen, um Stromversorgung und Kühlung zu optimieren. Das Power-Budget eines Racks könnte beispielsweise vollständig in leistungsstarke KI-Server fließen, die per Flüssigkühlung gekühlt werden. Die Datenbereitstellung erfolgt über andere Racks, gegebenenfalls sogar in anderen Räumlichkeiten, die über ein eigenes Power-Budget verfügen und mit einer herkömmlichen Luftkühlung auskommen. Auf diese Weise lassen sich Kosten senken – zugleich erleichtert die Disaggregation des Storage von den Servern es, den Speicherplatz und die Rechenleistung unabhängig voneinander zu skalieren.

SSDs als Sicherheitsnetz

Zwar geht der Trend zu kleineren, spezialisierten KI-Modellen, doch auch deren Training und Fine-Tuning kann Tage oder Wochen dauern. Bricht ein Trainingsdurchlauf aufgrund eines Fehlers ab, sind Trainingsfortschritte und Rechenzeit unwiederbringlich verloren – hinzu kommen die hohen Kosten für die Stromversorgung und Kühlung der Highend-Systeme. Aus diesem Grund arbeiten die Hyperscaler gemeinsam mit den Herstellern von Servern und Komponenten an einem sogenannten Checkpointing, das die gesamte Trainingssituation in regelmäßigen Abständen sichert – so ähnlich wie Snapshots im Backup-Bereich ein genaues Systemabbild erstellen.

Im Falle eines Fehlers können dann der Zustand des letzten Checkpoints schnell wiederhergestellt und das Training fortgesetzt werden. Als Speichermedien für die Sicherungen kommen SSDs mit NAND-Flash zum Einsatz, der nicht-flüchtig, preiswert und ausreichend schnell ist, um die Sicherungen aufzunehmen und bei Bedarf wieder einzuspielen. Es befinden sich derzeit zudem noch weitere Verfahren in frühen Entwicklungsphasen, die auf den kontinuierlichen Ausbau der Systemeffizienz ausgerichtet sind.

Axel Störmann, Vice President and Chief Technology Officer of Memory and SSD Products bei KIOXIA Europe.(Bild:  KIOXIA)
Axel Störmann, Vice President and Chief Technology Officer of Memory and SSD Products bei KIOXIA Europe.
(Bild: KIOXIA)

Letztlich ist Künstliche Intelligenz noch eine recht junge Technologie, auch wenn sie schon in vielen Anwendungen steckt. Daher sind viele Ansätze, KI zu verbessern, noch längst nicht ausgeschöpft, sowohl was die Leistungsfähigkeit als auch die Kostenoptimierung angeht. Wie aktuelle Entwicklungen zeigen, können SSDs eine entscheidende Rolle dabei spielen, die Anpassung und den Betrieb der Modelle günstiger zu gestalten – und damit, ebenso wie Open-Source-Modelle, KI in Zukunft für mehr Unternehmen zugänglich zu machen.

* Der Autor: Axel Störmann ist Vice President and Chief Technology Officer of Memory and SSD Products bei KIOXIA Europe

(ID:50412699)