Datenmanagement So gelingt die optimale Implementierung von Data Lakes

Autor / Redakteur: Dipl. Betriebswirt Otto Geißler / Nico Litzel

Data Lakes sind unter anderem zur Auflösung von Datensilos und für Big-Data-Analysen beziehungsweise Industrial Analytics im Einsatz. Was muss bei der Implementierung beachtet werden, damit sich die Vorteile des Konzepts auch effektiv nutzen lassen?

Firmen zum Thema

Für einen Data Lake wird ein einziges Speichermedium für alle strukturierten und vor allem unstrukturierten Daten zum Zweck der Analyse oder Berichterstellung verwendet.
Für einen Data Lake wird ein einziges Speichermedium für alle strukturierten und vor allem unstrukturierten Daten zum Zweck der Analyse oder Berichterstellung verwendet.
(Bild: gemeinfrei / Pixabay )

Durch zunehmende Rechenleistungen, Cloud-Speicherkapazitäten und -nutzungen sowie Netzwerk-Konnektivitäten kann sich in den Unternehmen aus einer Datenflut schnell ein kaum mehr beherrschbarer Tsunami auftürmen. Wobei eine solche Flutwelle in allen Formaten und aus einer Vielfalt von Quellen wie beispielsweise Internet-of-Things-Geräten, Social-Media-Sites, Verkaufssystemen und internen Netzwerksystemen besteht.

Big-Data-Analysen forcieren

Der agile Ansatz von Data Lakes kann Unternehmen nicht nur dabei helfen, langfristig ein effizienteres Datenmanagement aufzubauen, sondern auch Big-Data-Analysen wesentlich schneller durchzuführen. Denn hinter dem Begriff Data Lake steht der Einsatz von Data Analysis und die damit verbundenen Innovationen.

Ein Data Lake ist ein riesiges „Sammelbecken“ (Repository), das als Datenspeicher für strukturierte und unstrukturierte Daten aus den verschiedensten Quellen dient. Hinzu kommt, dass gerade diese unstrukturierten Daten als die am schnellsten wachsende Form aller Daten gelten, die voraussichtlich zukünftig rund 90 Prozent aller Daten ausmachen werden.

Wichtig ist dabei: Die Datenstruktur als auch deren Anforderungen werden jedoch erst dann bestimmt, wenn sie der jeweiligen Applikation zugeführt werden. Dies birgt den Vorteil, dass durch die Entkopplung der Speicherung von der Berechnung bzw. Analyse eine unabhängige Skalierung beider Bereiche ermöglicht wird. Gleichzeitig lösen Data Lakes die vielfach ineffizienten Datensilos auf, die meist abteilungs- oder bereichsweise voneinander isoliert betrieben werden.

Pitfalls rechtzeitig erkennen

Angesichts der ebenfalls zunehmenden Anzahl von Technologien und Tools, die das Sammeln, Vorhalten und Bewerten kritischer Geschäftsinformationen erleichtern sollen, sind sich viele Unternehmen immer noch nicht sicher, wie sie mit diesen Daten zielführend umgehen sollen. Nicht selten entstehen dabei mehr oder minder große „Datenfriedhöfe“, die sich letztlich nicht mehr sinnvoll auswerten lassen.

Experten zufolge sind Unternehmen erst mit entsprechend qualifizierten IT-Teams oder Dienstleistern dazu in der Lage, Anwendungen auf Basis von Data Lakes zu entwickeln und so die volle Flexibilität wirklich auszuschöpfen. Das heißt, ein Data Lake nimmt zwar erstmal alles an Daten auf, was auch „hineingekippt“ wird, wobei eine Relevanz, Vollständigkeit und Integrität der Daten nicht per se gegeben sein kann.

Ein weiteres Problem stellt der Datenschutz dar. Regularien verhindern, dass alle möglichen Daten in einem Data Lake gespeichert werden dürfen. Dabei könnten Kontext und Semantik von Daten verloren gehen. Für die Analytik ist es zudem häufig nicht unerheblich, welches Datum ein bestimmter Datensatz aufweist. Was wiederum ein Minimum an Strukturierung erfordert. Das Beispiel zeigt, dass aus einem „Data Lake“ leicht ein „Data Swamp“ bzw. Datensumpf entstehen kann, der nicht mehr sinnvoll auszuwerten ist.

Zum anderen können natürlich auch aus hoch strukturierten Daten oder den Metadaten von verschlüsselten Daten als Teil eines Data Lakes wertvolle Schlüsse gezogen werden. Dies bedeutet auch, dass ein Data Lake nicht immer einen guten Ersatz für die bisherigen IT-Strukturen oder ein klassisches Data Warehouse bietet. Er kann jedoch eine Ergänzung für Unternehmen sein, die insbesondere große Volumina unstrukturierter Daten verarbeiten müssen, um neue Geschäftsmodelle zu entwickeln.

Implementierung von Data Lakes

Die IT-Teams sollten stets einen agilen Ansatz für das Design und die Implementierung von Data Lakes verfolgen. Das bedeutet, vorab verschieden Technologien und Managementansätze testen und sukzessive verfeinern, um dann in einem weiteren Schritt zu den für das Unternehmen geeigneten Prozesse der Datenspeicherung zu gelangen.

Es werden im Wesentlichen bei der Entwicklung von Data Lakes folgende vier Entwicklungsstufen durchlaufen: Einspeisung der Rohdaten, experimentelle Phase, Entschlackung der Data Warehouses und Ersatz anderer Datenspeicher.

Einspeisung der Rohdaten

In der ersten Phase wird der Data Lake getrennt von den Kern-IT-Systemen erstellt und dient als kostengünstige, skalierbare „Pure Capture“-Umgebung.

Der Data Lake dient als Datenverwaltungsschicht innerhalb des Technologie-Stacks des Unternehmens, in der Rohdaten unbegrenzt gespeichert werden, bevor sie für die Verwendung in Computer-Umgebungen vorbereitet werden. Wenn Unternehmen einen „Datensumpf“ vermeiden wollen, ist in dieser frühen Phase eine strenge Governance sowie Kennzeichnung und Klassifizierung von Daten vorzunehmen.

Experimentelle Phase

Jetzt können Unternehmen damit beginnen, den Data Lake aktiv als Plattform für Experimente zu nutzen. Data Scientists nutzen einen einfachen und schnellen Zugriff auf alle Daten und können ihren Fokus mehr auf Experimente und Analysen der Daten lenken.

In einer solchen isolierten Umgebung, auch Sandbox genannt, kann mit unveränderten Daten gearbeitet werden, um Prototypen für Analyseprogramme zu erstellen. Darüber hinaus empfiehlt es sich, eine Reihe von Open-Source- und kommerziellen Tools bereitstellen.

Entschlackung der Data Warehouses

Um von den geringeren Speicherkosten der Data Lakes zu profitieren, können in der dritten Phase eher selten verwendete oder inaktive Daten zunehmend aus den Data Warehouses in die Data Lakes überführt werden.

In der Zwischenzeit kann das IT-Team dazu übergehen, relationale Daten der Data Warehouses, die für die Verarbeitung dieser Daten zuständig sind, mit hoher Intensität zu extrahieren. Entsprechend lassen sich Extraktions- und Transformationsaufgaben in den Data Lake migrieren.

Ersatz anderer Datenspeicher

In dieser Phase ist es nun möglich, dass die Mehrzahl der Informationen, die durch das Unternehmen fließen, über den Data Lake übertragen wird. Der Data Lake wird nun zu einem wesentlichen Teil der Dateninfrastruktur, ersetzt vorhandene Data Marts oder sonstige interne Datenspeicher und ermöglicht die Bereitstellung von Daten als Services.

Unternehmen können jetzt die Data-Lake-Technologie sowie ihre Fähigkeit, rechenintensive Aufgaben zu bewältigen, wie sie für die Durchführung innovativer Analysen oder die Bereitstellung von Programmen für maschinelles Lernen (ML) erforderlich sind, voll ausnutzen.

Einige IT-Teams werden sich vielleicht dafür entscheiden, datenintensive Applikationen bzw. ein Dashboard für das Leistungsmanagement auf dem Data Lake zu erstellen. Andere wiederum implementieren APIs, um Informationen aus Data-Lake-Ressourcen nahtlos mit Erkenntnissen aus anderen Anwendungen zu verbinden.

(ID:47295604)

Über den Autor