RAMSES-Cluster an der Universität Köln von Kaytus und NEC Wassergekühlter Cluster für die Wissenschaft

Von Klaus Länger 3 min Lesedauer

Anbieter zum Thema

Ein neuer HPC-Cluster an der Universität zu Köln demonstriert das Einsparungspotential durch Warmwasserkühlung. Der von NEC gebaute Cluster mit Servern von Kaytus soll die Kosten für die Kühlung durch die höhere Energieeffizienz um bis zu 40 Prozent senken.

Der RAMSES-Cluster an der Universität zu Köln nutzt AMD-basierte Server von Kaytus und Flüssigkeitskühlungslösungen von Kaytus und NEC. Die an ägyptischen Vorbildern orientierten Grafiken auf der Front der Racks stehen für die Einsatzgebiete des Clusters: Astrophysik, Mathematik und Quantenphysik, Medizin und Lebenswissenschaften. Die Sphinx symbolisiert die Sicherheitsarchitektur des HPC-Clusters. (Bild:  Niclas Carl / Universität zu Köln)
Der RAMSES-Cluster an der Universität zu Köln nutzt AMD-basierte Server von Kaytus und Flüssigkeitskühlungslösungen von Kaytus und NEC. Die an ägyptischen Vorbildern orientierten Grafiken auf der Front der Racks stehen für die Einsatzgebiete des Clusters: Astrophysik, Mathematik und Quantenphysik, Medizin und Lebenswissenschaften. Die Sphinx symbolisiert die Sicherheitsarchitektur des HPC-Clusters.
(Bild: Niclas Carl / Universität zu Köln)

Auf den Namen RAMSES hat die Universität zu Köln einen neuen HPC-Cluster getauft, der das veraltete, aus dem Jahr 2010 stammende CHEOPS-System (Cologne High Efficient Operating Platform for Science) ersetzt. Der Name des neuen Clusters steht für Research Accelerator for Modeling and Simulation with Enhanced Security und deutet damit die Aufgaben an, die er an der Universität übernimmt. So werden beispielsweise in den Lebenswissenschaften aus genetischen Sequenzierdaten vollständige Genome von Lebewesen berechnet oder in der Medizin Analysen genetischer Daten für die Krebsforschung verwendet. Die Quantenphysik nutzt die Rechner für die numerische Simulation von Quantenprozessoren, zudem kommen sie für weitere Simulationen in Mathematik und Physik zum Einsatz. Besonders wichtig sei RAMSES für die Astrophysik, wo auf dem Cluster beobachtete astrophysikalische Prozesse unter Anwendung physikalischer Gesetze simuliert werden, so die Universität.

Viktor Achter leitet die HPC-Abteilung an der Universität zu Köln.(Bild:  Nikolai Wansart)
Viktor Achter leitet die HPC-Abteilung an der Universität zu Köln.
(Bild: Nikolai Wansart)

Wie Viktor Achter, Abteilungsleiter HPC an der Universität, ausführt, verfügt RAMSES auch über eine KI-Partition, die den Einsatzbereich über reine HPC-Anwendungen hinaus erweitert. Das Gesamtdesign und den Bau des Clusters hat NEC als Hauptauftragnehmer übernommen. Das Unternehmen ist laut Dr. Oliver Tennert, Director HPC Marketing & Post Sales bei NEC Deutschland, sehr aktiv bei der Realisierung von HPC-Projekten mit einem Schwerpunkt bei öffentlichen Auftraggebern wie Universitäten und anderen Forschungseinrichtungen. Etwa 60 Prozent der Projekte stammen aus diesem Sektor, die anderen 40 Prozent werden für meist große Unternehmen realisiert.

Bildergalerie

Wasserkühlung für höhere Dichte und niedrigere Kosten

Die 174 Server mit insgesamt 31.576 CPU-Cores und 167 TB RAM Server für den RAMSES-Cluster stammen von Kaytus. Der international agierende Hersteller hat sein Hauptquartier in Singapur und eine Zweigstelle in Deutschland. Zu den Servern zählen mehr als 140 wassergekühlte Nodes, die anspruchsvolle Anwendungen wie Gromacs für Molekulardynamiksimulationen und NWChem für computergestützte Chemie übernehmen. In der Mehrzahl sind es 1U2S-Knoten, die mit jeweils zwei AMD-Epyc-Prozessoren der Genoa-Generation über zusammen 192 Cores verfügen. Zudem gehören eine Reihe von GPU-Servern mit indirekter Wasserkühlung zum Cluster. Darunter zehn für KI-Anwendungen nutzbare Nodes mit AMD-Prozessoren und jeweils vier Nvidia-H100-GPUs sowie weitere Server mit insgesamt 32 Nvidia-A30-GPUs, zwei AMD-Instict-Karten und zwei Vector Engines von NEC. Die Vector Engines sind PCIe-Karten, deren Prozessoren NEC aus den in Mainframes verwendeten Vektor-CPUs entwickelt hat. Spezielle Workloads, wie etwa Wettersimulationen, erledigen sie mit ihren Vektorprozessoren und großem Speicher in Form von HBM2 schneller und vor allem stromsparender als GPUs, erklärt Tennert. Der komplette Cluster soll eine Gesamtleistung von bis zu 4,8 PFLOPS/s liefern. Zudem gehört noch ein Kubernetes-Cluster mit zehn Servern zur Infrastruktur, die mit AMD-Epyc-Prozessoren der Milan-Generation arbeiten.

Dr. Oliver Tennert, Director HPC Marketing & Post Sales bei NEC Deutschland(Bild:  NEC)
Dr. Oliver Tennert, Director HPC Marketing & Post Sales bei NEC Deutschland
(Bild: NEC)

Durch den Einsatz einer Warmwasserkühlung mit Cold Plates für die beiden CPUs, die Speichermodule und die Spannungsregler können 1U-Systeme verwendet werden, die sich in den mit Wasseranschlüssen versehenen Racks dicht packen lassen und dort trotzdem unter hoher Last dauerhaft stabil arbeiten. Die Nodes sind mit einer Leckage-Erkennungstechnologie ausgestattet. Bei einem Leck schaltet sich der Server automatisch ab und löst einen Alarm aus. Die Eingangstemperatur des Kühlwassers für die Server liegt laut NEC bei 35 Grad Celsius und die Ausgangstemperatur bei 52 Grad Celsius. Ein weiteres Element der Kühlung ist die Kühlverteilungseinheit (Cooling Distribution Unit, CDU) die das Wasser durch den Kreislauf pumpt und gleichzeitig als Wärmetauscher für den externen Kreislauf dient, der die Wärme über Chiller an die Umgebung abgibt. Wie Acher betont, soll die Abwärme des Clusters später für die Heizung eines neuen Gebäudes genutzt werden, das derzeit noch in Planung ist.

Clark Li, Country Manager von Kaytus für die DACH-Region(Bild:  Kaytus)
Clark Li, Country Manager von Kaytus für die DACH-Region
(Bild: Kaytus)

Laut Clark Li, Country Manager für die DACH-Region bei Kaytus, deckt die Wasserkühlung etwa 80 Prozent des gesamten Stromverbrauchs der Systeme ab und senkt die Kosten für die Kühlung um bis zu 40 Prozent im Vergleich zu einer herkömmlichen Luftkühlung. Zudem soll die Kühllösung die Lebensdauer temperaturempfindlicher Komponenten verlängern, da ihre Temperatur niedriger bleibt, als bei einer Luftkühlung.

Sicherheit mit hohem Stellenwert

Das Thema Sicherheit besitzt bei RAMSES einen höheren Stellenwert, als beim vorherigen HPC-System, da der Cluster unter anderem für die Analyse klinischer Genomdaten verwendet wird. Daher werden sensible Daten in allen Verarbeitungsstadien verschlüsselt und der Zugang über eine Mehrfaktor-Authentifizierung geregelt. Als Storage dienen Spectrum-Scale-Systeme von IBM mit 12 PB HDD-Kapazität und 878 TB SSD-Cache, auf denen ein paralleles Dateisystem genutzt wird.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

(ID:50367886)