Panasas-Filesystem PanFS für HPC-Storage optimiert Speichern ohne Flaschenhals

Autor / Redakteur: Michael Matzer / Dr. Jürgen Ehneß

Das Panasas-Filesystem PanFS ist in vieler Hinsicht ungewöhnlich. Das parallele Filesystem für Object Storage verfügt weder über eine API zu AWS S3, wie sie inzwischen vielfach angeboten wird, noch über Datenkompression, die ebenfalls Standard ist.

Firma zum Thema

Keine Leistungs- oder Kapazitätsobergrenze: PanFS eignet sich ideal für HPC und KI.
Keine Leistungs- oder Kapazitätsobergrenze: PanFS eignet sich ideal für HPC und KI.
(Bild: gemeinfrei / Pixabay )

Das PanFS besteht aus drei Hauptkomponenten: „Director nodes“, „Storage nodes“ und dem Client-Treiber „DirectFlow“. Die beiden Nodes-Typen bilden zusammen die Panasas-ActiveStor-Appliance. Der Treiber ist ein ladbares Software-Modul, das auf Linux-Compute-Servern, den Clients, läuft und mit den beiden Node-Typen interagiert. Der Admin nutzt GUI oder Befehlszeile, die auf einem Director-Node laufen. Dieser übernimmt – nomen est omen – die Interaktion mit den Storage-Nodes.

Auf diese Weise separiert PanFS die Kontroll- von der Datenebene, was nicht nur der Sicherheit, sondern auch der Skalierbarkeit dient: Es lassen sich beliebig viele Storage-Nodes hinzufügen, doch die Leistung skaliert stets linear. Während Director-Nodes Metadaten über Ordner, Dateiattribute und so weiter auf Storage-Nodes speichern, koordinieren sie zudem sämtliche Aktionen der Storage-Nodes und der Client-Treiber. Sie kümmern sich bei einem Ausfall um alle Wiederherstellungspunkte und die nötigen Vorgänge, die Datensicherheit und -verfügbarkeit betreffen. Solche Rechenknoten sind beliebige, einfache Server, die aber über eine Highspeed-Netzwerkleitung, eine beträchtliche DRAM-Kapazität und einen NVDIMM-Speicher für die Transaktionslogs verfügen.

Bildergalerie
Bildergalerie mit 9 Bildern

Storage-Nodes bilden die Datenebene. Innerhalb der Architektur werden nur hier Nutz- und Metadaten gespeichert. Somit können beide Datentypen in Relation skalieren. Die Storage-Nodes sind handelsübliche Systeme, aber solche mit Hardware, die hinsichtlich Festplatten, SSDs, NVMe- und DRAM-Kapazitäten, CPU-Leistung und Netzwerkbandbreite und so weiter ausbalanciert sind.

Der DirectFlow-Client-Treiber schließlich ist ein ladbares Filesystem, das auf Compute-Servern installiert wird, um wie jedes Dateisystem von beliebigen Applikationen genutzt zu werden. In Kooperation mit den Director- und Storage-Nodes legt es das Verhalten eines vollständig POSIX-konformen Dateisystems an den Tag: in einem einzigen Namespace, über alle Server im Compute-Cluster hinweg. Der Panasas-Treiber unterstützt laut Anderson alle verbreiteten Linux-Distributionen und -Versionen.

Lineare Skalierung

PanFS wurde so entworfen, dass es linear skalieren kann. Werden 50 Prozent mehr Storage-Nodes hinzugefügt, steigt auch die Speicherkapazität um 50 Prozent. Fügt man mehr Director-Nodes hinzu, erhöht sich die Verarbeitungsgeschwindigkeit der Metadaten. Es gibt keine Obergrenze für Leistung oder Kapazität, was wiederum das Dateisystem so gut für Hochleistungsrechnen (HPC) und KI-Anforderungen geeignet macht, vor allem beim Trainieren von Modellen.

Parallele und direkte Datenübertragungen vom Client

Als parallel arbeitendes Dateisystem ist PanFS in der Lage, wesentlich mehr Bandbreite bereitzustellen als NFS- und CIFS/SMB-Protokolle. Jede Datei, die von PanFS gespeichert wird, wird über viele Storage-Nodes verteilt, so dass jede Dateikomponente parallel gelesen und geschrieben werden kann. Das erhöht die Leistung beim Zugriff auf jede Datei.

Weil PanFS auch ein direktes Filesystem ist, kann der Compute-Server über das Netzwerk mit allen Storage-Nodes sprechen. Vergleichbare Unternehmensprodukte richten den Dateizugang über sogenannte „Head nodes“ ein, auf denen die NFS- oder CIFS/SMB-Protokolle laufen, und über ein zusätzliches Netzwerk am Backend. Der Flaschenhals entsteht an diesen Head-Nodes, und das Backend-Netzwerk verursacht zusätzliche Kosten. In PanFS spricht der Client-Treiber auf dem Compute-Server hingegen direkt mit den Storage-Nodes, und die Director-Nodes sind gar nicht involviert („out-of-band“). Als Folge gibt es kaum Flaschenhälse, Belastungspunkte (Hotspots) oder gar schwankende Leistung wie in Scale-Out-NAS-Systemen.

File-Maps und Erasure-Coding

Weil alle Bestandteile einer Datei verteilt sind, benötigt jede Datei eine File-Map, die anzeigt, wo sich die anderen Bestandteile auf den jeweiligen Storage-Nodes befinden. Der Client-Treiber verwendet diese File-Map, um zu erkennen, auf welche Storage-Nodes er sowohl direkt als auch parallel zugreifen muss beziehungsweise kann.

PanFS nutzt zudem Network-Erasure-Coding, um bei diesem Verteilungsprozess (Striping) die höchste Stufe der Datenintegrität und Zuverlässigkeit sicherzustellen. Weil PanFS vollständig POSIX-konform ist, sehen alle Prozesse auf den Compute-Servern des Client-Treibers den gleichen Dateisystem-Namespace, die Metadaten und die Inhalte der Nutzerdateien. Mit dem Client-Treiber DirectFlow wird auch für die Kohärenz des Caches gesorgt.

Data-Management und Verschlüsselung

Um die Sicherheit des Systems zu gewährleisten, stellt PanFS sogenannte Access Control Lists (ACLs) zur Verfügung, nicht nur für Dateien, sondern auch für Verzeichnisse. Das erfolgt zusätzlich zum verbreiteten Linux-Stil wie etwa „-rwxr-xr-x“, aber viel feingranularer. Snapshots pro Laufwerk (es muss mindestens ein logisches Laufwerk eingerichtet sein) ermöglichen die benutzerbasierte Wiederherstellung älterer Dateiversionen, ohne einen Admin zu erfordern. Damit die Daten auch vertraulich bleiben, lassen sie sich mit der DARE-Verschlüsselung (DARE: Data At Rest Encryption) kodieren.

Mixed-Workload-Performance

In einem Storage-System können sich Dateigrößen, Zugriffsmuster und Workloads mit der Zeit beträchtlich verändern. Doch Panasas unterstützt alle diese Faktoren, so dass sich die Palette der Anwendungsfälle beträchtlich erweitern lässt. Im High-Performance-Computing (HPC) sind große Dateien kein Einzelfall. PanFS unterstützt Genforschung ebenso wie das Hosten von Zentralverzeichnissen bei einem Cloud-Provider.

Dynamic Data Acceleration

Das PanFS für HPC und AI-Workloads verfügt seit 2020 über die Funktion „Dynamic Data Acceleration on PanFS“. Diese Steuerungsfunktion soll die Datenspeicherungsvorgänge auf Panasas ActiveStor Ultra Appliances beschleunigen, indem sie den Speichermedien wie SSDs und Festplatten zu höherer Effizienz verhilft. Entscheidend ist nicht die Zugriffshäufigkeit, wie beim Tiering, sondern die Dateigröße. Damit DDA automatisch diese Arbeiten erledigen kann, überwacht ein Algorithmus im Orchestrator, wie und wo einerseits Metadaten und andererseits Speicherdaten abgelegt werden.

Indem die Verschiebung von Dateien zwischen SSDs und Festplatten dynamisch gesteuert und das volle Potential von NVMe ausgeschöpft wird, soll PanFS nicht nur die höchstmögliche Leistung für HPC- und KI-Workloads zu vertretbaren Betriebskosten liefern, sondern auch, was ebenso wichtig ist, auf konsistente, vorhersagbare Weise. Der DDA-Algorithmus steuert die Sweeper-Software, welche die eigentliche Verteilung der kleinen Dateien vornimmt.

Die Regel lautet wie folgt: Um die Auslastung der SSDs bei etwa 80 Prozent ihrer Kapazität zu halten, bewegt der Sweeper kleine Dateien auf dieses Medium. „Ist eine SSD zu 80 Prozent voll, verlegt der Sweeper die größten Dateien auf Festplatte. Ist eine Festplatte ,nur‘ zu 70 Prozent voll, verlegt der Sweeper die ,kleinsten‘ Dateien auf die schnelleren SSDs“, erläutert Curtis Anderson. „DDA verwaltet die Verlegung von kleinen Dateien zwischen SSDs und Festplatten, um die Zugriffsleistung sowie die Performance von Workloads, die mit kleinen Dateien arbeiten, zu erhöhen, indem sie sie von Streaming-Workflows isoliert hält.“ Dies ist nur ein Beispiel, wie PanFS die Performance des Systems auf optimalem Niveau hält.

Bildergalerie
Bildergalerie mit 9 Bildern

Optimierte Betriebskosten

Neue Anbieter wie das Start-up WekaIO bieten ihren Kunden anscheinend einen Vorteil, indem sie „heiße“ Dateien in schnellen NVMe-SSDs ablegen, die großen „kalten“ Dateien aber in einem großen, S3-basierten Object-Store Data Lake beim Kunden selbst speichern. Beim britischen WekaIO-Kunden Genomic England liegen nach Panasas-Angaben 1,3 PB auf NVMe-SSDs, wohingegen die verfügbaren 40 PB in der hauseigenen Kunden-IT auf Festplatten gespeichert sind.

Automatisches Tiering findet zwischen NVMe-SSDs und dem S3 Data Lake statt. Das Verschieben von den langsamen, aber kostengünstigen Festplatten auf NVMe-SSDs muss derzeit noch manuell initiiert werden. Obwohl die Notwendigkeit dafür nicht so häufig auftritt, so wiegt doch schwerer, dass der Zugriff von schnellen SSDs auf die „langsamen“ Festplatten das System ausbremst: Der Durchsatz liegt nur bei 150 GB/s, der eines Panasas-DDA-Systems bei 410 GB/s, bei verfügbaren 41 PB.

Hinsichtlich der jeweiligen Betriebskosten hat Panasas berechnet, dass die Lösung von WekaIO für seinen Kunden Genomic England etwa 400 US-Dollar pro Terabyte kostet. Das Panasas-System kennt keine „langsamen, leistungsschwachen“ Medien, denn DDA gleicht den Unterschied aus und hebt das System auf ein gemeinsames, hohes Performance-Niveau. Der Preis pro Terabyte liegt laut Anderson bei 200 US-Dollar. DDA liefere somit einen signifikanten monetären Vorteil, wenn beim Kunden PanFS eingesetzt werde.

Aktuelles eBook

Herausforderungen für den Speicher: Big Data

Storage-Systeme für große Datenmengen

eBook Storage-Systeme für große Datenmengen
eBook „Storage-Systeme für große Datenmengen“
(Bildquelle: Storage-Insider)

Bei der Speicherung von Big Data wird zunehmend auf Data Lakes zurückgegriffen, doch genügt es nicht, die eintreffenden Datenströme einfach dorthinein zu kippen – dann würde daraus schnell ein „Data Swamp“. Lesen Sie im eBook, wie Sie optimal mit großen Datenbergen umgehen können und wie die entsprechenden Daten optimal für die Bearbeitung bereitgestellt werden können.

Die Themen im Überblick:

  • Big Data und Storage-Systeme
  • Aus Big Data Wert schöpfen
  • Wohin mit den unstrukturierten Daten?
  • Von der lokalen Appliance über Cloud Provider bis in die Hybrid Cloud

(ID:47696968)

Über den Autor