Suchen

Im Test: Talend Enterprise Data Integration Big Data Edition Datenverarbeitung im ganz großen Stil

Autor / Redakteur: Dr. Götz Güttich / Elke Witmer-Goßner

„Talend Enterprise Data Integration“ ist eine leistungsfähige Lösung zum Einbinden Umwandeln, Bewegen und Synchronisieren von Daten. Dabei können die bearbeiteten Informationen nicht nur von einer Vielzahl beliebiger unterschiedlicher Quellsysteme kommen, sondern lassen sich auch an eine entsprechend große Menge von Zielsystemen verteilen.

Firmen zum Thema

Datenintegration garantiert den kontinuierlichen Informationsfluss innerhalb des Unternehmens, optimiert Kosten und verbessert die Betriebseffizienz.
Datenintegration garantiert den kontinuierlichen Informationsfluss innerhalb des Unternehmens, optimiert Kosten und verbessert die Betriebseffizienz.

Dafür stehen mehr als 450 Datenkonnektoren zur Verfügung. Die „Big Data Edition“ der Software beherrscht zusätzlich noch die Zusammenarbeit mit Hadoop und den dazugehörigen Datenbanken beziehungsweise Komponenten wie beispielsweise HBase, HCatalog, HDFS, Hive, Oozie und Pig. IAIT hat sich angesehen, wie sich das System in der Praxis nutzen lässt.

Wenn heute von Big Data gesprochen wird, so meinen die beteiligten IT-Spezialisten damit meist eine Sammlung von Datensätzen, die so groß und komplex sind, dass sie sich mit normalen Datenverwaltungswerkzeugen nicht mehr bearbeiten lassen. Solche Datensammlungen – die teilweise in die Petabytes und Exabytes gehen – lassen sich nur schwer auswerten, da traditionelle Datenbanksysteme hier in Bezug auf die Leistungsfähigkeit an ihre Grenzen stoßen. Die Analysen von Big Data laufen folgerichtig auf anderen Systemen ab, die dazu in der Lage sind, parallel auf tausenden von Rechnern zu arbeiten und ihre Ergebnisse dann an eine zentrale Stelle zu melden.

Bildergalerie
Bildergalerie mit 5 Bildern

Die am weitesten verbreitete Lösung für die Arbeit mit Big Data ist Hadoop. Dabei handelt es sich im Prinzip um ein verteiltes Dateisystem auf Open-Source-Basis, das die gespeicherten Informationen auf mehrere Datenblöcke aufsplittet und diese Datenblöcke dann auf mehreren Systemen im Netz (dem Hadoop-Cluster) verteilt. Auf diese Weise stellt Hadoop gleichzeitig Hochverfügbarkeit und Redundanz sicher. Die Dateiablage und das Bearbeiten von Anfragen werden dabei durch einen so genannten Master-Node durchgeführt.

Talend Enterprise Data Integration

Um die Vorteile von Hadoop nutzen zu können, muss allerdings eine Möglichkeit existieren, die vorhandenen Daten in Hadoop abzulegen beziehungsweise auch wieder aus dem Open-Source-System herauszuholen. Hier kommt die Big Data Edition von Talend Enterprise Data Integration ins Spiel.

Bei Data Integration handelt es sich – wie oben schon skizziert – um eine Lösung, die Daten aus praktisch beliebigen Quellen einlesen, nach den Angaben der Benutzer bearbeiten und anschließend wieder exportieren kann. Mit dem Tool ist es im einfachsten Fall möglich, CSV-Dateien einzulesen, bestimmte Felder wie zum Beispiel Name oder Adresse daraus zu selektieren und diese dann in eine Excel-Datei zu exportieren. Der Leistungsumfang geht aber viel weiter und reicht von der Arbeit mit Business Intelligence-Lösungen wie Jaspersoft über SAP, AmazonRDS, Salesforce und ähnliches bis hin zu diversen Datenbanken wie DB2 oder auch Informix und eben Hadoop.

(ID:34933460)