Nvidia GTC 2021: Starke Kundenbeispiele, faszinierende Technik Beschleunigung und KI sind die Zukunft der IT

Autor Ulrike Ostler

Auf der „Nvidia GTC 2021“ hatte Nvidia-Chef Jensen Huang einen Strauß Produktankündigungen dabei. Bei den vorgestellten Lösungen gibt KI den Ton an und lässt neue Welten und Materialien, eine andere Medizin und neue Arbeitsweisen entstehen.

Firmen zum Thema

Auf der virtuellen „Nvidia GTC“ hat Nvidia-Chef Jensen Huang einen Avatar seiner selbst vorgestellt. Der mittels KI erzeugte Avatar kann auch Wissensfragen beantworten.
Auf der virtuellen „Nvidia GTC“ hat Nvidia-Chef Jensen Huang einen Avatar seiner selbst vorgestellt. Der mittels KI erzeugte Avatar kann auch Wissensfragen beantworten.
(Bild: Nvidia)

Jensen Huang, Gründer und CEO von Nvidia glaubt, dass insbesondere drei Treiber für enorme Fortschritte im Computing sorgen; schließlich beginnen Wissenschaft und Industrie, eine leistungsstarke Kombination aus KI und beschleunigter Datenverarbeitung im Rechenzentrumsmaßstab zu nutzen (siehe: Abbildung 1).

Voraussetzung dafür ist das so genannte „accelerated computing“, also die Unterstützung der CPUs durch Akzeleratoren. Eine der wichtigsten Beschleunigungs-Techniken sind GPUs, mit denen sich die Verarbeitung parallelisieren lässt. Und ohne Zweifel ist der wichtigste GPU-Anbieter Nvidia. In den vergangenen zehn Jahren und in nur fünf GPU-Generationen hat sich deren Leistung um das 1.000-fache steigern können.

Bildergalerie
Bildergalerie mit 15 Bildern

Der zweite wesentliche Faktor ist die Möglichkeit der Skalierung, die Fortschritte um das fast 100.000-fache erlaubt. Huang: „Denn das Rechenzentrum ist die neue Recheneinheit.“ Im Jahr 2015 brauchte beispielsweise eine einzelne „Kepler“-GPU fast einen Monat, um „Resnet-50“, ein beliebtes Computer-Vision-Modell, zu trainieren. „Selene“, der Supercomputer von Nvidia schafft das heute in weniger als einer halben Minute.

Selene enthält Tausende von Nvidia-GPUs auf Basis der „Ampere“-Architektur. Um diese Skalierung zu ermöglichen, hat Nvidia dafür auch Software wie „Megatron“ (siehe: Abbildung 13), „Magnum IO“ für Multi-GPU- und Multi-Node-Verarbeitung sowie „Sharp“ für das In-Network-Computing entwickelt.

Die dritte Kraft, die die Entwicklung immer schneller vorantreibt, ist die Künstliche Intelligenz. In der Keynote bringt der Nvidia-Chef viele Beispiele: Programme, die Musikstücke, Artikel und Softwareprogramme schreiben oder KI-Trainingsmodelle, die sich selbst weiterentwickeln. So gehört zur den GTC-Ankündigungen ein „Omniverse Replicator“, der synthetische Trainingsdaten für Roboter generiert. Das ML-Tool ist gedacht für Ingenieure, die mit der Umgebung „Isaac Sim“ arbeiten, und adressiert dreierlei Probleme: in kürzester Zeit ausreichende Daten in ausreichender Qualität zur Verfügung zu haben.

Eine neue Art der Anwendungsentwicklung

Die neuen Funktionen erlauben es ML-Ingenieuren, synthetische Datensätze in Produktionsqualität zu erstellen, um robuste Deep-Learning-Wahrnehmungsmodelle zu trainieren. Die ´Replikation` der inhärenten Verteilung der Zieldomäne des Modells ist der Schlüssel zur Maximierung der Modellleistung.

Damit ergibt sich eine neue Version von Isaac, die wiederum Unterstützung für das „Robot Operating System“ bietet. (ROS). Und für Isaac hat Nvidia einige neue Hardware-beschleunigte Softwarepakete veröffentlicht, die es ROS-Entwicklern erleichtern, leistungsstarke KI-fähige Roboter auf der „Jetson“-Plattform von Nvidia zu bauen.

Um die Leistungsfähigkeit von KI-Anwendungen zu erläutern, verweist Huang auf eine per Deep Learning herbeigeführte Simulation aus dem vergangenen Jahr von 305 Millionen Atomen, die das Innenleben des SARS-CoV-2-Virus zeigt, und zwar innerhalb einer Millisekunde. Diese Arbeit markierte einen mehr als 10-millionenfachen Anstieg gegenüber einer damals hochmodernen Simulation von einer Million Atomen für 20 Nanosekunden vor 15 Jahren.

Unschlagbares Team: KI und HPC

Deshalb setzt die wissenschaftliche Gemeinschaft auf die Kombination von KI und High Performance Computing (HPC). So haben Forscher im vergangenen Jahr fast 5.000 Artikel über die Arbeit in AI+HPC auf „Arxiv“ veröffentlicht, vor fünf Jahren waren es erst knapp 100, führt Huang aus. Kürzlich etwa haben Nvidia-Forscher eine Möglichkeit aufgezeigt, neuronale Netze mit klassischen physikalischen Gleichungen zu kombinieren, um in traditionellen Simulationen eine 1.000-fache Beschleunigung zu erzielen.

Um neue Medikamente zu entwickeln, müssen die Forscher die Proteine und deren Zusammenspiel verstehen. Mit herkömmlichen Methoden, bei denen Röntgenstrahlen und Elektronenmikroskope zum Einsatz kommen, konnten bisher jedoch nur 17 Prozent der rund 25.000 menschlichen Proteine entschlüsselt werden.

Für die Entschlüsselung von Proteinstrukturen braucht es 3D-Abbildungen. So lässt sich quasi sehen, wie sie funktionieren. Anschließend erfolgt die Identifizierung der chemischen Verbindungen, die sie daran hindern, gesunde Zellen zu infizieren. „Deepmind“ hat im vergangenen Jahr ein Ensemble von KI-Modellen in seinem „Alphafold“-System genutzt, um einen großen Sprung zu machen und die 3D-Struktur von mehr als 20.000 menschlichen Proteinen vorherzusagen.

Bildergalerie
Bildergalerie mit 15 Bildern

In ähnlicher Weise haben Forscher von Nvidia, Caltech und dem Startup Entos maschinelles Lernen und Physik kombiniert, um „Orbnet“ zu entwickeln, das die Molekularsimulationen um viele Größenordnungen beschleunigt. Entos kann seine Simulationen chemischer Reaktionen zwischen Proteinen und Arzneimittelkandidaten um das 1.000-fache beschleunigen und in drei Stunden eine Arbeit abschließen, die sonst mehr als drei Monate gedauert hätte.

Die Vorhersage von Klimakatastophen

Die Klimaveränderung ist einer der größten Aufgaben dieser Zeit. Da sie derzeit nicht aufzuhalten ist, müssen sich Menschen auf die veränderten Situationen einstellen. Gut wäre es, wenn sich zumindest die Katastrophen vorhersagen ließen. Wissenschaftler hoffen, globale Klimasimulationen mit einer Auflösung im Kilometermaßstab durchführen zu können, um etwa Polizei, Rettungskräfte oder Katastrophenschutz besser auf die veränderten Wettermuster vorbereiten zu können. Um Wolken und Sturmmuster genau zu verfolgen, müssen sie, laut Nvidia-CEO mit einer Auflösung von einem Meter arbeiten.

Das erfordert eine 100 Milliarden Mal höhere Rechenleistung, die heute kein Computer bieten kann. Huang: „Bei der Geschwindigkeit des Mooreschen Gesetzes würden wir das nicht vor 2060 erreichen. Deshalb bauen Wissenschaftler, die einen Millionensprung machen wollen, digitale Zwillinge unseres Planeten mit beschleunigter Rechenleistung und KI in großem Maßstab.“

Nvidia und Quantencomputing

Da ist der Sprung zu Quantencomputern nicht mehr weit. Sie werden laut Huang eine neue Fortschrittswelle in der Klima- und Arzneimittelforschung sowie bei den Finanzen mit sich bringen. Allerdings sind sie noch Zukunftsmusik – gleichwohl weltweit wohl rund hundert Teams Quantenprozessoren und -systeme, Simulatoren und Algorithmen erforschen, werden Quantencomputer wohl erst in zehn, vielleicht 20 Jahren tatsächlich laufen.

Bildergalerie
Bildergalerie mit 15 Bildern

Das bedeute jedoch nicht, dass man die Hände in den Schoß legen könne. Durch die Simulation der Quantencomputer von morgen auf klassischen Systemen von heute könnten Forscher Quantenalgorithmen schneller und in sonst nicht möglichem Maßstab entwickeln und testen. Nvidia arbeite zum Beispiel mit Google Quantum AI und IBM zusammen. Simulationen sollen aber nicht nur helfen, neue Quantenalgorithmen schnell zu entwerfen und zu testen, und zwar in einem Umfang und einer Leistung, die auf aktueller Quantenhardware nicht möglich ist. Vielmehr seien sie auch entscheidend für die Validierung und das Benchmarking der nächsten Generation von Quantenhardware.

In dem Bereich gibt es gleich mehrere Neuerungen von Nvidia:

  • Eine erste Bibliothek „Custatevec“ steht in der öffentlichen Betaphase zum Download bereit. Sie beschleunigt die Zustandsvektor-Simulationsmethode. Mithilfe dieses Ansatzes lässt sich der vollständige Zustand des Systems im Speicher nachverfolgen und auf Dutzende von Qubits skalieren.
  • Die Bibliothek gehört zu „Cuquantum“, dem Software Development Kit (SDK) von Nvidia zur Beschleunigung von Quantenschaltungssimulationen auf einer GPU.
  • Eine zweite Bibliothek, die im Dezember erscheinen soll, trägt die Bezeichnung „Cutensornet“ und ist ein Beschleuniger, der die Tensor-Netzwerkmethode verwendet. Er kann mit einigen vielversprechenden kurzfristigen Algorithmen bis zu Tausenden von Qubits verarbeiten.

Diese Tools lassen sich in andere Werkzeuge integrieren: So ist Custatevec in „Qsim“ integriert, dem Zustandsvektor-Simulator von Google Quantum AI, der wiederum mit Cirq, einem Open-Source-Framework für die Programmierung von Quantencomputern, verwendet werden kann. Anwender, die Cirq nutzen, können somit Ciquantum herunterladen und verwenden. Im Dezember soll Custatevec für den Einsatz mit „Qiskit Aer“, einem Hochleistungssimulator für Quantenschaltungen von IBM, bereit stehen.

Weltrekord mit Cuquantum

Das neue SDK, das auf dem Selene-Supercomputer läuft, simuliert achtmal mehr Qubits als frühere Versuche im Rahmen eines wichtigen Tests für das Quantencomputing: Simuliert wurden 1688 Qubits auf 896 GPUs. Dabei handelt es sich um das so genannte Maxcut-Problem (siehe: Abbildung 4). In der Mathematik wird Maxcut oft als Beispiel für ein Optimierungsproblem genannt, das kein bekannter Computer effizient lösen kann. Die Algorithmen werden beispielsweise dazu verwendet, um große Computernetzwerke zu entwerfen, das optimale Layout von Chips mit Milliarden von Siliziumpfaden zu finden und das Gebiet der statistischen Physik zu erforschen.

Außerdem entwickelt Nvidia eine Appliance, die auf Basis der Nvidia-Hardware „DGX“ out-of-the-box für die Simulation genutzt werden kann, sie soll im ersten Quartal 2022 auf den Markt kommen.

Industrien bringen Digitale Zwillinge hervor

Nicht ganz praxisfern muten dagegen die Digitalen Zwillinge an, die Nvidia-Anwender gebaut haben. Siemens Energy hat beispielsweise das KI-Framework „Nvidia Modulus“ eingesetzt, das auf Dutzenden von Grafikprozessoren in der Cloud läuft, um ein ganzes Kraftwerk zu simulieren (siehe: Abbildung 8). Es kann mechanische Ausfälle aufgrund der korrosiven Auswirkungen von Dampf vorhersagen und so Ausfallzeiten reduzieren, Geld sparen und die Stromversorgung aufrechterhalten.

Der Anbieter von Kraftwerksausrüstung und -technologien, verfügt über ein riesiges Portfolio an Maschinen und Anlagen, die gewartet werden müssen. Er trägt buchstäblich dazu bei, dass weltweit die Lichter an bleiben. Seine Installed Base umfasst Zehntausende Gas- und Dampfturbinen, Generatoren sowie Gas- und Dieselmotoren.

Der Energieriese hat sich Microsoft, American Express und USPS angeschlossen und nutzt nun auch die Deep Learning-Funktionen von „Triton“, einer Open-Source-Software, die KI in die Produktion bringt. Der „Triton Inference Server“ von Nvidia wiederum hilft, bei der Lösung von Problemen im Bereich Predictive Service. Laut Huang nutzen über 25.000 Unternehmen weltweit AI Inference von Nvidia.

Bildergalerie
Bildergalerie mit 15 Bildern

BMW produziert ein Auto pro Minute; jedes mit rund 25.000 Teilen. Rund 5 Millionen Teile befinden sich zu jedem Zeitpunkt in der Fabrikationshalle. Bereits im Frühjahr hatte BMW seinen Digitalen Zwilling (siehe: Abbildung 9 und 10) für die Fabrikation in Regensburg vorgestellt. Inzwischen hat der Fahrzeugbauer digitale Modelle für drei weitere Fabriken erstellt – für eine Gesamtfläche von 10 Millionen Quadratmetern. Die BMW-Ingenieure nutzen das Tool „Isaac Gym“, das auf „Nvidia Omniverse“ basiert, um den Produktionsrobotern neue Fähigkeiten beizubringen.

Eine Plattform für Avatare

Praktische Hilfe, die zugleich die zunehmende Symbiose von KI und virtuellen Welten und echtem Wissen symbolisiert, ist die GTC-Ankündigung eine Nvidia-Plattform für KI-Avatare. „Omniverse Avatar“ ermöglicht, so der Nvidia-Chef, die Erstellung von „Conversational AI-Assistents“ in Echtzeit.

In den interaktiven Avataren arbeiten Nvidia-Technologien der Bereiche Sprach-KI, Computer Vision, Natural Language Understanding, Recommendation Engines und Simulationstechnologien. Die auf der Plattform erstellten Avatare sind interaktive Charaktere mit 3D-Grafiken (Raytracing), die sehen, sprechen, sich über eine breite Palette von Themen unterhalten und Absichten (Intents) in gesprochener Sprache verstehen können.

Die KI-Assistenten sind praktisch für jede Branche anpassbar. Unternehmen könnte es dabei helfen, Milliarden von täglichen Interaktionen etwa im Kundenservice zu bewältigen, sei es bei Reservierungen, Banktransaktionen oder Terminvereinbarungen.

Supercomputing auf neuem Level und in der Cloud

Interessant für die Verbreitung von High Performace Computing ist die Ankündigung des Infiniand-Switch „Quantum 2“ (siehe: Abbildung 5), für 400 Gigabit pro Sekunde (Gbit/s) und Netzwerkplattform-Funktionen, denn die Technik verspricht Sicherheit, Cloud-nativ- und Mandantenfähigkeit sowie Bare-Metal-Performance für Datenanalysen, KI- und HPC-Anwendungen.

Es handelt sich um eine Ende-zu-Ende Netzwerkplattform, die aus dem Quantum-2 Switch besteht, dem „Connect-X-7“-Netzwerkadapter und der „Bluefield-3“-Datenverarbeitungseinheit (DPU). und verfügt über die Software, die zum Betreiben einer neuen Architektur nötig ist.

Quantum 2, gerade in der Bemusterung, verbindet Tausende von GPUs, ermöglicht die Leistung eines Supercomputers und die Leistung über eine Cloud mit anderen zu teilen, und das sei absolut neu, so Huang. Zuvor habe es nur entweder Bare-Metal-Performance oder sichere Mandantenfähigkeit gegeben, aber nie beides. Der Supercomputer wird „cloud-native“ und kann somit unter anderem besser ausgelastet werden.

Bildergalerie
Bildergalerie mit 15 Bildern
  • Zu den Merkmalen gehört deshalb die Leistungsisolierung. Ein Telemetrie-basiertes Überlastungsprotokoll verhindert, dass Sender mit hoher Datenrate das Netzwerk überlasten und den Traffic für andere beeinträchtigen können.
  • Die Generation „3 Sharp“ verfügt über eine 32-mal höhere In-Switch-Verarbeitung, um das KI-Training zu beschleunigen
  • Ein Timing-System mit Nanosekundenpräzision sorgt dafür, dass sich der Aufwand für Wartezeiten und Handshaking verkürzt, da weniger „Race-Conditions“ erforderlich sind. Dieses wiederum ermöglicht, dass Cloud-Rechenzentren mehr denn je Teil des Telekommunikationsnetzes werden, zum Beispiel um Software-definierte 5G-Dienste zu hosten.
  • Innerhalb der „3Hop-Dragonfly“-Topologie lassen sich eine Million Endpunkte verbinden – 6,6 mal mehr als in der gegenwärtigen Generation der Quantum-Technik, wird gerade zusammengebaut (sampling now)

„Wäre „Selene DGX“ bereits mit Quantum 2 ausgestattet“, erläutert Nvidia-Chef Huang, würde die gesamte Bandbreite 224.00 Gigabyte pro Sekunde betragen, also das Eineinhalbfache des gesamten Internet-Verkehrs.

Es gibt zwei Optionen für Netzwerkendpunkte: die NIC „CX-7“ und „Bluefield 3“ (siehe: Abbildung 6 und 7).

„ConnectX-7 Infiniband“ besteht aus 8 Milliarden Transistoren (TSM 7N), 16 Kernen/ 256 Threads, 400 Gigabit pro Sekunde für die Beschleunigung von Verschlüsselungen. Laut Nvidia führt das zu Leistungssteigerungen von vierfacher Network-Computing-Performance, zweifachen GPU-Direct-Throughput und im Vergleich zu RDMA eine Verdopplung.

Bluefield 3 mit Quantum 2 wird im Mai bemustert, besteht aus 22 Milliarden Transistoren, basiert wie die NIC ebenfalls auf TSMC 7, verfügt über 16 ARM 64-Bit-Kerne und bietet der Verschlüsselung 400 Gigabit pro Sekunde.

Bildergalerie
Bildergalerie mit 15 Bildern

Der Grund für einen Co-Prozessor, also für eine DPU liegt in der Zunahme des Ost-West-Traffic im Rechenzentrum beziehungsweise in der horizontalen Skalierung und damit in der Zunahme von Machine-to-Machine-Nachrichten und der disaggregierten Anwendungen. Unter anderem resultieren daraus eine Menge geöffneter Ports, die allesamt vor Cyberangriffen geschützt werden müssen.

Der Co-Prozessor wird benötigt, um die CPU von der Verarbeitung der Netzwerk-, Speicher- und Sicherheitssoftware zu entlasten. Dieser Anteil beträgt derzeit etwa 30 Prozent, weist aber eine steigende Tendenz auf: Der Einsatz einer DPU könne nicht nur den Durchsatz steigern, sondern bei Rechenzentren mit einem Wert von mehreren Milliarden unglaubliche Kosteneinsparungen erzielen.

Die Bereitstellung von Cybersecurity-Funktionen auf Cloud-nativen Architekturen auf der Basis von Bluefield und einer Umgebung aus „Doca 1.2“ sowie „Morpheus“, dem Security-KI-Framework von Nvidia, erlaube nicht nur das Erschaffen einer Zero-Trust-Plattform, sondern Computing und Deep Learning mit einer bis zu 600-fachen Geschwindigkeit im Vergleich zu Servern ohne Nvidia-Technik.

Die Plattform soll es der Cybersecurity-Branche ermöglichen, Lösungen zu entwickeln, die die Rechenzentren ihrer Kunden in Echtzeit schützen. Die Isolierung von Anwendungen von der Infrastruktur, die Verschärfung von Firewalls und der Einsatz von beschleunigtem Computing sowie Deep Learning zur kontinuierlichen Überwachung und Erkennung von Bedrohungen könnten Entwicklerunternehmen helfen, ein neues Sicherheitsniveau in Rechenzentren zu schaffen, heißt es von Nvidia.

Artikelfiles und Artikellinks

(ID:47806557)