Im Test: Talend Enterprise Data Integration Big Data Edition

Datenverarbeitung im ganz großen Stil

Seite: 3/4

Firmen zum Thema

Im Test verwendeten wir eine Umgebung mit Hadoop 1.0.3, die innerhalb einer vSphere-Installation auf Basis der IBM X-Serverarchitektur lief. Nach dem Einspielen der Talend Enterprise Data Integration auf unserer Workstation, die mit Windows 7 Ultimate in der x64-Version arbeitete, importierten wir zunächst einige Daten aus einer CSV-Datei, wandelten sie um und exportierten sie als Excel-Sheet, um uns mit der Arbeitsweise der Lösung vertraut zu machen. Danach stellten wir eine Verbindung zu unserem Hadoop-System her, importieren dieselben CSV-Daten nochmals und schrieben sie in Hadoop. Anschließend ließen wir uns die Daten wieder ausgeben, um zu überprüfen, ob alles richtig funktioniert hatte.

Im nächsten Schritt verwendeten wir Testdaten aus dem Unternehmensbereich mit 100.000 beziehungsweise zehn Millionen Datensätzen und führten Analysen dieser Daten mit Hilfe von „Pig“ durch. Talend Enterprise Data Integration läuft übrigens auf Systemen mit der aktuellsten Java 1.6-Variante. Abgesehen davon empfiehlt der Hersteller den Einsatz von Windows 7 in der 64-Bit-Version als Betriebssystem sowie auf Hardware-Seite einen Standard-Rechner mit vier GByte Arbeitsspeicher.

Bildergalerie
Bildergalerie mit 5 Bildern

Bei dem Entwicklungstool handelt es sich um eine von Eclipse abgeleitete Arbeitsumgebung, die auf der linken Seite über ein Repository verfügt, über das sich unter anderem Jobs, Joblets und Meta-Daten definieren lassen. Die Jobs umfassen die über die Icons symbolisierten Arbeitsanweisungen zum Umgang mit den Daten, die Meta-Daten können zum Einsatz kommen, um Datei-, Datenbank- sowie SAP-Verbindungen, Schemas und ähnliches einzurichten und die Joblets ermöglichen es, einzelne Prozesse als normale Komponenten – also modular – zu nutzen.

In der Mitte steht oben der bereits erwähnte Arbeitsbereich zur Verfügung, in dem die Anwender die Jobs mit Hilfe der Icons definieren während sich unten kontextabhängig die Konfigurationsoptionen für das gerade selektierte Icon bearbeiten lassen. An gleicher Stelle finden sich auch Optionen zum Starten und Debuggen der Jobs und Listen mit Fehlern, Meldungen und Infos.

Am rechten Fensterrand stellt Talend Enterprise Data Integration die so genannte Palette mit den einzelnen Komponenten bereit, die als Icons nutzbar sind. Dazu gehören die Import- und Export-Konnektoren genauso wie die Funktionen zum Bearbeiten der Daten, zum Ausführen von Befehlen und vieles mehr. Es lässt sich auch jederzeit eigener Code in das System einbinden. Die Palette stellt also die Quelle für die Drag-and-Drop-Vorgänge dar, mit denen sich die einzelnen Komponenten in den Arbeitsbereich ziehen lassen.

(ID:34933460)