Eine Frage der Bandbreite, der Energieressourcen, des Layouts Die Rolle der Verkabelung bei der Erschließung des KI-Potenzials

Ein Gastbeitrag von Carlos Mora* 6 min Lesedauer

Anbieter zum Thema

Die Nachfrage nach Bandbreite nimmt weiter zu – und Künstliche Intelligenz (KI) beschleunigt diesen Trend. Schon heute hilft KI dabei, neue Effizienzniveaus zu erreichen und Anwendungen wie „ChatGPT“ sind für viele Menschen in ihrem Berufs- und Privatleben unverzichtbar geworden.

Was soll im Rechenzentrum passieren? Die Antwort muss stehen, bevor sich Netzwerk-Verantwortliche dem Grundatz widmen: Die Punkt-zu-Punkt Verkabelung ist weniger flexibel und erfordert mehr Einzelkabel, die strukturierte Verkabelung ist eingangs mit mehr Kosten verbunden. (Bild:  frei lizenziert: Gerd Altmann /  Pixabay)
Was soll im Rechenzentrum passieren? Die Antwort muss stehen, bevor sich Netzwerk-Verantwortliche dem Grundatz widmen: Die Punkt-zu-Punkt Verkabelung ist weniger flexibel und erfordert mehr Einzelkabel, die strukturierte Verkabelung ist eingangs mit mehr Kosten verbunden.
(Bild: frei lizenziert: Gerd Altmann / Pixabay)

Für die Nutzung von KI sind Rechenzentren der Grundbaustein, der das KI-Ökosystem untermauert. Um effizient und korrekt zu arbeiten, benötigt KI riesige Cluster von Grafikprozessoren (Graphic Processing Units, GPUs). Wie lassen sich diese Cluster intelligent und effizient einrichten, und was hat die Verkabelung damit zu tun?

KI-Training mit GPU-Clustern

Eine KI zu trainieren – sei es maschinelles Lernen oder Deep Learning – erfordert eine große Anzahl von GPUs, die mehrere Berechnungen gleichzeitig durchführen können. Um zu verstehen, wie dies funktioniert, ist es wichtig, die Unterschiede zwischen GPUs und Zentraleinheiten (Central Processing Unit, CPUs) zu kennen.

Wenn wir uns eine Sterneküche vorstellen, ist eine CPU der Chefkoch. Er beaufsichtigen alle Vorgänge, trifft wichtige Entscheidungen und sorgen dafür, dass alles reibungslos abläuft. Hauptprozessoren können eine Vielzahl von Aufgaben bewältigen, sind aber nicht auf eine bestimmte Sache spezialisiert.

Die GPU ist dagegen wie ein Sous-Chef, der sich auf die Zubereitung bestimmter Speisen spezialisiert hat. Der Sous-Chef kann viele Gerichte gleichzeitig zubereiten, ähnlich wie eine GPU viele Daten gleichzeitig verarbeiten kann.

Aufbau eines GPU-Cluster

Die meisten Netzwerke verwenden eine „Nvidia DGX-H100 Superpod“-Architektur für ihre KI-Workloads. Der Cluster kann in einem Middle of the Row- oder End of Row-Design angeordnet werden, was letztendlich vom spezifischen Kunden-/Rechenzentrums-Design abhängt.

Jede skalierbare Einheit oder Pod besteht aus 32 „H100„-Servern, und es gibt insgesamt acht Server-Schränke. Jeder Server-Schrank fasst vier Server, was insgesamt 256 GPUs pro Pod ergibt. Je nach den Bedürfnissen des Kunden kann ein Rechenzentrum nur ein Cluster mit vier skalierbaren Einheiten und 1.024 GPUs haben oder aber bis zu 64 skalierbare Einheiten, was über 16.000 GPUs entspricht.

Diese Server können entweder über eine Punkt-zu-Punkt Verkabelung angeschlossen werden, bei der jedes Gerät direkt mit einem anderen verbunden ist, oder über eine strukturierte Verkabelung, bei der zusätzliche Komponenten verwendet werden, um die Infrastruktur effektiver zu verwalten, insbesondere wenn die anzuschließenden Geräte nicht in unmittelbarer Nähe sind. Die Wahl der Verkabelung unterstützt die physische Konfiguration und das Layout der verschiedenen GPU-Cluster, was bei der Planung einer KI-Einrichtung entscheidend ist.

Punkt-zu-Punkt Verkabelung

Betrachten wird zunächst die Punkt-zu-Punkt Verkabelung und das kleinste Cluster mit vier skalierbaren Einheiten und 1.024 GPUs, um besser zu verstehen, wie dies funktioniert. Um dieses Cluster effektiv zu verkabeln, benötigen Rechenzentrumsbetreiber eine beträchtliche Anzahl von Patch-Kabeln, darunter 1.024 Server-zu-Switch-Kabel zur Verbindung von Knoten mit Leaf-Switches und 1.024 Kabel für Leaf-Switches zu Spine-Switches.

Bei Vorhandensein von Infiniband Core- oder Spine-Core-Switches wäre die gleiche Anzahl von Kabeln erforderlich. In diesem kleinen Cluster erfordert die Infrastruktur insgesamt 32 Leaf-Switches und 16 Spine-Switches, die die Spine-and-Leaf-Architektur für die Netzwerktopologie des Cluster bilden.

Jeder Server besteht aus acht GPUs, die jeweils einen Anschluss benötigen. Die Patch-Kabel von den GPUs werden an den Leaf-Switch angeschlossen, der sich in der Regel im Middle of Row- oder End of Row-Layout befindet. Anschließend müssen sie an den Spine-Switch angeschlossen werden, der sich möglicherweise nicht in der Nähe befindet. Das bedeutet, dass jede Verbindung von den einzelnen GPUs zum Leaf-Switch repliziert werden muss, was zu einer großen Anzahl von Einzelkabeln führt, die viel Platz im Rechenzentrum beanspruchen.

Wenn wir jede Verbindung als ein einzelnes Patch-Kabel betrachten würden, müssten die Betreiber die Verfügbarkeit bestimmter Kabellängen auf der Grundlage der Möglichkeiten ihrer Kabellieferanten berücksichtigen. In einigen Fällen kann dies zu überschüssiger Kabellänge (Überlänge) führen, die verwaltet werden muss und Platz beansprucht.

Dieser Ansatz der Punkt-zu-Punkt Verkabelung stellt Rechenzentrumsbetreiber vor die Herausforderung, die Verkabelungsdichte und die Verfügbarkeit von Kabelkanälen für alle Verbindungen zu verwalten, einschließlich der Verbindungen vom Server zum Leaf-Switch, vom Leaf zum Spine-Switch und vom Spine zum Core-Spine-Switch. Diese Herausforderungen werden besonders deutlich, wenn das KI-Cluster skaliert oder erweitert wird.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Ist die strukturierte Verkabelung die Antwort?

Bei einer strukturierten Verkabelung hingegen werden Verteilerfelder oder -Gehäuse strategisch im Rechenzentrum positioniert, so dass die Geräte über kurze Patch-Kabel oder Mehrfaserkabel mit dem Netz verbunden werden können. Mehrfaserige Trunks sorgen für dauerhafte Verbindungen zwischen den Verteilerfeldern, die das „strukturierte“ Rückgrat dieses Systems bilden und eine dauerhafte und zuverlässige Netzinfrastruktur bieten. Das System bietet jedoch auch Flexibilität neue Anschlüsse hinzuzufügen oder von den aktiven Komponenten zu trennen.

Bei einem Backbone-Konzept mit mehrfaserigen Trunks werden alle für die GPUs benötigten Fasern in einem einzigen Kabel mit geringerem Durchmesser zusammengefasst, wodurch viel Platz gespart wird. Bei der strukturierten Verkabelung wird ein Patch-Kabel oder Mehrfaserkabel von der GPU zu einem Verteilerfeld verwendet, wobei ein Mehrfaser Trunk (MPO) durch den Kabelkanal zu einem weiteren Verteilerfeld und dann ein weiteres Patch-Kabel oder Mehrfaserkabel zum Leaf-Switch führt.

Vom Leaf-Switch aus kann dann eine ähnliche Kombination von Komponenten unter Verwendung eines Mehrfaser-Trunks als Backbone zum Spine-Switch-Bereich verlegt werden, was wesentlich weniger Platz in den Kabelkanälen des Rechenzentrums beansprucht und besonders nützlich ist, wenn größere Entfernungen überbrückt werden müssen.

Welches Layout ist das Richtige?

Ob die Wahl auf eine Punkt-zu-Punkt oder eine strukturierte Verkabelung fällt, hängt letztlich von den spezifischen Anforderungen und Einschränkungen des Rechenzentrums ab. Während eine Punkt-zu-Punkt Verkabelung in bestimmten Szenarien geeignet sein kann, ist es wichtig, die potenziellen Vorteile einer strukturierten Verkabelung zu untersuchen, insbesondere wenn die Nachfrage nach KI-Anwendungen steigt und die Größe von GPU-Clustern zunimmt. Die Punkt-zu-Punkt Verkabelung ist weniger flexibel und erfordert mehr Einzelkabel, die strukturierte Verkabelung ist eingangs mit mehr Kosten verbunden.

Diese Kosten amortisieren sich jedoch über einen längeren Zeitraum, insbesondere wenn Cluster schneller erweitert oder geändert werden können. Es können allerdings sowohl Punkt-zu-Punkt als auch strukturierte Verkabelungen je nach Standort oder Anwendung im Rechenzentrum „gemischt“ werden. So könnte ein Betreiber beispielsweise beschließen, eine Punkt-zu-Punkt Verkabelung für die Verbindung zwischen Server und Leaf-Switch zu verwenden, aber eine strukturierte Verkabelung für die Verbindung zwischen Leaf und Spine-Switch einzusetzen.

Darüber hinaus stellt das Aufkommen neuer Entwicklungen wie die „GB200“-Systeme von Nvidia Rechenzentrumsbetreiber vor zukünftige Herausforderungen. Diese fortschrittlichen Systeme können eine Neubewertung der aktuellen Verkabelungsstrategien und Infrastruktur-Layouts erforderlich machen, um optimale Leistung und Effizienz zu gewährleisten.

Schnelle und verantwortungsvolle Expansion von Rechenzentren

Mit Blick auf die Zukunft von KI-Clustern und der Infrastruktur von Rechenzentren spielt Nachhaltigkeit eine entscheidende Rolle. Rechenzentren müssen expandieren, um die zunehmenden Informationsströme zu verarbeiten, insbesondere da Maschinelles Lernen und Künstliche Intelligenz in immer mehr Branchen zum Einsatz kommen. Angesichts der Tatsache, dass die für den Betrieb und die Kühlung von Rechenzentren benötigte Energie bereits etwa 1 bis 2 Prozent des weltweiten Stromverbrauchs ausmacht, ist es unerlässlich, dass Betreiber verantwortungsbewusst wachsen.

Deshalb entwickelt Corning kleinere, dichtere Kabeldesigns unter Verwendung von Hochleistungsfasern mit kleinem Durchmesser, um zum einen die Datenübertragungskapazität zu erhöhen und gleichzeitig den CO2-Fußabdruck um bis zu 60 Prozent zu reduzieren. Die Integration solcher Verkabelungslösungen in die KI-Cluster ermöglicht es Rechenzentrumsbetreibern, nicht nur die Leistung und Effizienz zu steigern, sondern auch einen Beitrag zu einer widerstandsfähigeren, datengesteuerten und gerechteren Zukunft zu leisten.

Da sich die Landschaft der Rechenzentrumsinfrastruktur ständig weiterentwickelt, müssen Betreiber flexibel und offen für neue Methoden bleiben. Auf diese Weise können sie nicht nur ihren aktuellen Betrieb optimieren, sondern sind auch in der Lage, künftige Technologien nahtlos zu integrieren und die ständig wachsende Nachfrage nach KI-Anwendungen zu erfüllen.

*Der Autor
Carlos Mora ist Market Development Manager bei Corning Optical Communications.

Bildquelle: Corning

(ID:50220606)