IT-BUSINESS Aktion:

#ITfightsCorona

Nvidia A100, DGX A100, HGX A100 und EGX A100

Ampere: Nvidias Monster-GPU für das Datacenter

| Autor: Klaus Länger

Nvidias A100 ist die erste Ampere-GPU und gleichzeitig die stärkste GPU weltweit. Ein wichtiger Einsatzbereich sind AI-Berechnungen. Auf dem bereits lieferbaren DGX-A100-System sitzen acht der riesigen 7-Nanometer-GPUs.
Nvidias A100 ist die erste Ampere-GPU und gleichzeitig die stärkste GPU weltweit. Ein wichtiger Einsatzbereich sind AI-Berechnungen. Auf dem bereits lieferbaren DGX-A100-System sitzen acht der riesigen 7-Nanometer-GPUs. (Bild: Nvidia)

Mit dem A100 stellt Nvidia die erste GPU mit Ampere-Architektur vor. Der riesige 7-nm-Chip soll nicht nur deutlich stärker, sondern auch viel flexibler sein, als der Vorgänger Volta. Mit DGX A100, HGX A100 und EGX A100 gibt es Plattformen für Datacenter und Edge-Computing.

Der Namensgeber für die Ampere-Architektur von Nvida ist der französische Physiker und Mathematiker André-Marie Ampère, nach dem die Einheit der Stromstärke Ampere benannt wird. Der Name passt, denn der Ampere-Prozessor A100 von Nvidia ist die mit Abstand leistungsstärkste GPU, die jemals hergestellt wurde. In einigen Anwendungen soll sie laut Jensen Huang, Gründer und CEO von Nvidia, bis zu 20-fach schneller sein als ihre Vorgängerin Volta.

An der Grenze der 7-nm-Technologie

Im Gegensatz zum Vorgänger V100 mit Volta-Architektur wird der A100 bei TSMC nicht mehr in 12 nm, sondern in 7 nm gefertigt. Mit einer Fläche von 826 mm² ist der Ampere-Chip trotzdem größer. Die Anzahl der Transistoren ist gegenüber dem V100 von 21,1 Milliarden auf 54 Milliarden gestiegen. Damit liegt der Chip an der Grenze des mit 7 nm machbaren, so Huang.

Der A100 als erste Implementierung der GA100-Hardware-Architektur mit prinzipiell bis zu 128 Streaming Multiprozessoren(SM) verfügt über 108 aktive SMs. Auf diese verteilen sich 3.456 FP64-Cores, 6.912 FP32-Cores. Während die Zahl der FP64- und der FP32-Cores gegenüber der GV100 kräftig gestiegen ist, hat Nvidia die Zahl der Tensor Cores von 640 auf 432 reduziert. Allerdings sollen diese Tensor Cores der dritten Generation speziell bei KI-Anwendungen deutlich leistungsfähiger sein, da sie mit Tensor Float 32 (TF32) ein neues Gleitkommaformat beherrschen, der den Datenbereich von FP32 und die Genauigkeit von FP16 kombiniert. Gegenüber Volta soll Ampere so beim KI-Training mit geringer Genauigkeit um den Faktor 20 schneller sein. Sparcity ist ein relativ neuer Ansatz für die Optimierung tiefer neuronaler Netze. Mit der GA100-Architektur führt Nvidia die Structural Sparsity Acceleration ein: neue Sparse Tensor Core Instruktionen, die den Durchsatz bei Sparse Matrix-Operationen mit den Formaten TF32, FP16, BFLOAT16, INT8 und INT4 verdoppeln. Zudem sollen sich die Workloads besser auf die einzelnen Nodes verteilen lassen.

Der schematische Aufbaue einer GPU mit GA100-Architektur. Hier allerdings mit 128 Stream Multiprozessoren.
Der schematische Aufbaue einer GPU mit GA100-Architektur. Hier allerdings mit 128 Stream Multiprozessoren. (Bild: Nvidia)

Zusätzlich beschleunigen die Tensor Cores FP64 für HPC-Anwendungen. Damit leistet eine A100 laut Nvidia 19,5 TFOPS gegenüber 7,8 TFLOPS beim V100-Chip.

Der Level 2 Cache ist bei A100 mit 40 MB 6,7 mal größer als beim V100 und in zwei Partitionen unterteilt um die Bandbreite zu erhöhen und die Latenz zu verringern.

Mit auf dem GPU-Package 40 GB an schnellem HBM2-Speicher in Form von fünf Stacks mit jeweils acht Speicher-Dies pro Stack. Nvidia gibt ein Speicherbandbreite von 1.555 GB/s an, 1,7 mal höher als bei Volta. Das SXM4-Modul mit der A100-GPU unterstützt nun PCI Express 4.0. Für die Kommunikation mehrere A-100-Chips wird NVLink 3.0 eingesetzt, mit 600 GB/s doppelt so schnell wie NVLink 2.0.

Der API-Support für die Neuerungen von Ampere ist in Cuda 11 enthalten. Zusätzlich bietet Nvidia GPU-optimierte Container für Deep Learning-, Machine Learning- und HPC-Anwendungen an, in denen das Cuda-11-Toolkit bereits enthalten ist. Sie sind nur ein Teil des kompletten Software-Stacks,der auch bereits vor trainierte Modelle enthält.

Bis zu sieben GPUs in einer

Um Systeme mit A100-GPUs flexibler einsetzen zu können, kann mit der der neuen Multi-Instance GPU (MIG) Funktion jede GPU in bis zu sieben separate GPU-Instanzen aufgeteilt werden, die bei bestimmten Anwendungen jeweils die Leistung einer V100 liefern sollen. Jede Instanz verfügt dabei über eigene Pfade im kompletten Speichersystem. Mit MIG können so einzelne VMs oder Container die Instanzen isoliert und mit definiertem QoS nutzen. Das ist vor allem für Service Provider wichtig. In einem DGX-A100-System oder einem OEM-System mit jeweils acht GPUs kann MIG auch selektiv auf einzelnen GPUs aktiviert werden.

Der Aufbau eines DGX-A100-Systems. Die CPUs kommen erstmals von AMD.
Der Aufbau eines DGX-A100-Systems. Die CPUs kommen erstmals von AMD. (Bild: Nvidia)

Ampere-Systeme für das Datacenter

Nvidia bietet die A100-GPU für den Datacenter-Einsatz nicht als Steckkarte an, sondern nur als komplettes DGX-A100-System oder als mit mehreren GPUs bestücktes Platinen für OEM-Hersteller. Das DGX A100 ist die bereits dritte DGX-Generation von Nvidia. Das System ist laut Hersteller der erste 5-PetaFLOPS-Server weltweit. Der Nvidia-Chef Huang erklärt dazu, dass ein Datacenter mit fünf DGX-A100-Systemen für AI-Training und Inference etwa dieselbe Leistung bringt, wie ein bisheriges Rechenzentrum mit 50 DGX-1-Systemen für das Training und weiteren Servern mit etwa 600 CPUs für die restlichen Aufgaben. Die fünf DGX-A100-Server benötigen 28 KW und kosten etwa eine Million US-Dollar, das bisherige Rechenzentrum dagegen mehr als 11 Millionen bei einer Leistungsaufnahme von 630 KW. Für extreme Anforderungen bietet Nvidia ein DGX SuperPOD mit 140 DGX-A100-Systemen und 700 PetaFLOPS an. Die einzelnen Systeme sind durch Netzwerkkomponenten von Mellanox verbunden. Nvidia hat Mellanox vor kurzem übernommen.

In einem einzelnen DGX-A100-System im 4U-Formfaktor stecken acht A100-GPUs die durch sechs NVSwitches via NVLink 3.0 miteinander verbunden sind. Sie sitzen auf einem Mainboard mit zwei aktuellen AMD-Epyc-7742-Prozessoren der Rome-Generation mit jeweils 64 Cores. Intel, Prozessorlieferant bei den bisherigen DGX-Systemen, hat bisher keine Prozessoren mit PCI-Express-4.0-Unterstützung im Portfolio. Die kommt erst mit Ice Lake SP später dieses Jahr.

Der Arbeitsspeicher auf der Hauptplatine ist ein TB groß, der Massenspeicher besteht aus PCIe-4.0-SSDs mit 15 TB Gesamtkapazität. Für die Netzwerkanbindung sorgen acht Mellanox Single-Port ConnectX-6 VPI für HDR Infiniband mit 200 Gb/s und ein Dual-Port ConnectX-6 VPI für 200-Gb/s-Ethernet.

Für Cloud-Anbieter, die ihre eigenen Server konfektionieren lassen oder für OEM-Hersteller bietet Nvidia zwei verschiedene HGX-A100-Baseboards an. Die große Variante ist mit acht GPUs bestückt und für Systeme mit zwei CPUs ausgelegt, die kleine mit vier ist für Single-CPU-Systeme bestimmt. Die Verbindung zu den Mainboards mit CPUs und RAM wird jeweils über PCI-Express hergestellt.

Laut Nvidia sollen Systeme mit HGX A100 von den Herstellern Atos, Cray, Dell, Fujitsu, Gigabyte, HPE, Inspur, Lenovo, QCT und Supermicro kommen. Als Coud-Anbieter mit A100-Systemen nennt Nvidia Alibaba, AWS, Baidu, Google, Microsoft Azure, Oracle sowie Tencent.

Die Beschleunigerkarte EDX A100 ist für Edge-Anwendungen ausgelegt.
Die Beschleunigerkarte EDX A100 ist für Edge-Anwendungen ausgelegt. (Bild: Nvidia)

Ampere für Edge-Computing

Für Anwendungen am Netzwerkrand bringt Nvidia die PCIe-Steckkarte EGX A100 mit einer A100-GPU und einem Mellanox ConnectX-6 DX für 100-Gb/s-Ethernet oder Infiniband an Bord. Als Einsatzgebiete nennt Nvida Smart Citiy, Medizin, 5G-Infrastruktur, Spracherkennung, Robotik sowie autonomes Fahren. Für alle diese Sektoren stellt Nvidia Applikationsframeworks zur Verfügung. Während DGX-A100-Systeme bereits bei Kunden stehen, sollen die EGX-A100-Karten zum Ende des Jahres verfügbar sein.

Klaus Länger
Über den Autor

Klaus Länger

Redakteur

Kommentare werden geladen....

Sie wollen diesen Beitrag kommentieren? Schreiben Sie uns hier

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 46585842 / Hardware)