DATA Storage & Analytics Technology Conference 2019 Technische Voraussetzungen für KI-Projekte
KI-Projekte erfordern sehr spezielle technische Voraussetzungen. Kurt Gerecke, Storage-Berater bei Tech Data AS, erläutert die Rolle von GPU-Computing und die vielfältigen Herausforderungen an die Storage-Lösungen, die KI und maschinelles Lernen stellen.
Anbieter zum Thema

ITB: Welche Rolle spielt GPU-Computing für erfolgreiche KI-Projekte?
Gerecke:KI und Teilbereiche des maschinellen Lernens stand in den letzten Jahrzehnten immer wieder im Mittelpunkt von IT-Aktivitäten und scheiterte oft an technischen Hürden unterschiedlichster Art. Was für Machine- und Deep-Learning-Projekte fehlte, waren zum einen die Daten und zum anderen die Rechenleistung. Mit GPU-Computing können solche Projekte heute aufgrund der hohen Leistungsfähigkeit erfolgreich umgesetzt werden. Es sind aber noch viele andere Dinge, die für ein erfolgreiches Projekt eine Rolle spielen, notwendig. Neben dem GPU-Computing spielt die CPU, die Kommunikationsbandbreiten zwischen CPU und GPUs, zwischen den GPUs selbst, die Übertragungsbandbreiten von den Rechnern auf die Speicherinfrastrukturen, die Datensammlung und die Aufbereitung für das Training, die Frameworks zur Datenstrom orientierten Programmierung, Tools und Frameworks für die Algorithmen zum maschinellen Lernen und vieles mehr an neuen Technologien eine ebenso wichtige Rolle. Allein schon die Definition eines „Use-Cases“, was will man erreichen, und die damit verbundene planerische Arbeit ist sehr komplex.
ITB: Welche Speicherarchitekturen sind für KI-Anwendungen besonders gut geeignet?
Gerecke: Ist eine KI-Anwendung in Produktion, kann das in der Regel mit vorhandenen Speicherinfrastrukturen abbildbar sein. Darin liegt nicht die Herausforderung! Die Herausforderung an die Speicherinfrastrukturen ergibt sich aus der Datensammlungsphase, das Aufbereiten der Daten und das Training von neuronalen Netzen in Form von Machine- und Deep-Learning-Projekten. Hier bedarf es Infrastrukturen der unterschiedlichsten Art. So können zum Beispiel für die Sammelphase der Daten aus den unterschiedlichsten Quellen Cloudspeicherlösungen, Objektspeicher, Onlinearchive und Filesysteme eine große Rolle spielen. Auch die Skalierbarkeit spielt ist hier wichtige. Für das Kategorisieren und Aufbereiten der Daten werden ausreichende Bandbreiten, Random-IO’s für Lesen als auch Schreiben und ein intelligentes Verschieben an die richtigen Speicherplätze erforderlich. Für die Trainingsphase selbst sind in der Regel hohe Durchsätze (Random Read), schnellste Antwortzeiten, lineare Skalierung, Workflow Integration, verschiedene Versionen, verschiedene Varianten bis hin zur Rückverfolgbarkeit der Daten, also Archivierung und Compliance, notwendig. Die Daten-Pipeline vom Sammeln der Daten bis zum Training spiegelt also die unterschiedlichsten Anforderungen wieder und es gibt nicht viele Anbieter, die eine End-to-End-Daten- und Speicher-Plattform für alle Phasen zur Verfügung stellen können. Darin liegt die Herausforderung.
| Mehr Infos zur DATA STORAGE & ANALYTICS Technology Conference 2019 |
(ID:45885098)
