Im Test: Talend Enterprise Data Integration Big Data Edition

Datenverarbeitung im ganz großen Stil

Seite: 4/4

Firmen zum Thema

Nachdem wir uns mit den Grundfunktionen der Software vertraut gemacht hatten, ging es daran, die zuvor beschriebenen Jobs für unseren Test anzulegen und laufen zu lassen. Das Beschreiben aller in diesem Zusammenhang durchgeführten Arbeitsschritte würde den Rahmen des Tests sprengen. Deswegen sei nur gesagt, dass das Erstellen der Jobs mit Hilfe der Icons in der Regel nur wenig Zeit in Anspruch nahm, und dass der Export sowie Import von Daten in und aus Hadoop Out of the Box so wie erwartet funktionierte.

Sobald sichergestellt war, dass das Talend-Produkt problemlos mit unserem Hadoop-System kommunizieren konnte, machten wir uns im nächsten Schritt daran, eine Datenauswertung durchzuführen. Dazu wurde aus einer Kundendatei mit zehn Millionen Datensätzen eine bestimmte Kundennummer ausgelesen. Hierbei nutzten wir die Vorteile von Hadoop und erzeugten mit dem Talend-Werkzeug einen Code, der dann in das Hadoop-System übertragen wurde und dort die Datenabfragen durchführte. Das Ergebnis der Anfrage speicherten wir als File im Hadoop-Dateisystem ab. Als zweiten Test der Auswertungsfunktionalitäten verwendeten wir die Kundendatei zusätzlich, um herauszufinden, wie oft welches Produkt verkauft worden war.

Bildergalerie
Bildergalerie mit 5 Bildern

In diesem Zusammenhang ist es wichtig, zunächst einmal auf die technischen Hintergründe einzugehen. Hadoop verwendet für Berechnungen über große Datenmengen den Algorithmus „MapReduce“. Dabei handelt es sich um ein Framework zum parallelen Durchführen von Abfragen unter Einsatz vieler Computer. MapReduce umfasst zwei Schritte: Zunächst einmal erfolgt das „Mapping“, das heißt, der Master-Node erhält den Input, teilt ihn in kleinere Unteranfragen auf und verteilt diese dann an die Nodes im Cluster. Die Unterknoten splitten dann die Anfragen entweder nochmals unter sich auf – was zu einer Art Baumstruktur führt – oder fragen ihre Datenbestände ab und schicken die Antwort zurück an den Master-Node. Im zweiten Schritt („Reduce“) sammelt der Master die Antworten und fügt sie zu der Ausgabe zusammen, die die ursprüngliche Anfrage beantwortet. Auf diese Art und Weise lassen sich die Abfragen parallel auf mehreren Systemen abarbeiten, was zu einer beeindruckenden Leistungsfähigkeit führt.

Um MapReduce-Programme zu erstellen, die auf Hadoop laufen, kommt die „Pig“-Plattform zum Einsatz. Sie heißt so, weil sie die „Trüffel“ in den Datensätzen finden soll. Die dazugehörige Programmiersprache nennt sich „Pig Latin“. Für den Einsatz von MapReduce ist es also erforderlich, spezielle Programme zu schreiben. Der Code Generator Talend Enterprise Data Integration nimmt den Benutzern hier die meiste Arbeit ab und stellt Funktionalitäten zur Verfügung, die es ermöglichen, die Datenquellen, Abfragen und Ziele direkt mit den gewohnten Icons im Arbeitsbereich der Entwicklungsumgebung zu definieren, den Code zu erzeugen (zum Beispiel MapReduce oder Pig Latin), an die Hadoop-Umgebung zu schicken und dort ausführen zu lassen.

Kurz nachdem wir unsere Testjobs angelegt und gestartet hatten, konnten wir im Web-Interface des Hadoop-Servers die Ergebnisse betrachten, die wie erwartet ausfielen. Die Arbeit mit den Pig-Elementen lief also im Test – genau wie der Im- und Export von Daten – vollkommen problemlos ab.

Fazit des Tests

Die Talend Enterprise Data Integration Big Data Edition verbindet die alte Welt der Datenverwaltung mit der Neuen. Das Produkt, das schon ohne die Anbindung an Big Data-Lösungen einen überzeugenden Funktionsumfang für die Datenintegration, -synchronisation und -umwandlung mit sich bringt, geht mit der Big Data-Anbindung noch einen ganzen Schritt weiter. Dank des Pig-Supports lassen sich auf einfache Weise verteilte Datenabfragen im Cluster durchführen und die Unterstützung weiterer Technologien Hive und HBase ermöglicht den Einsatz der Anwendung in praktisch allen Umgebungen.

Umfassende Data Quality-Features und ein Projektmanagement mit Scheduling und Monitoring-Framework runden das Leistungsspektrum des Produkts ab. Talend Enterprise Data Integration Big Data Edition arbeitet zudem nicht nur mit der Hadoop-Distribution der Apache Foundation zusammen, sondern auch mit den Lösungen von Hortonworks, Cloudera, MapR und Greenplum. Datenbankadministratoren und -dienstleister dürften an diesem Produkt kaum vorbei kommen.

(ID:34933460)