IBM-Manager Udo Hertz: "Keiner bietet mehr!"

Big Data und IBM – alles eine Sache der Integration

Seite: 3/3

Firmen zum Thema

Jüngst im Interview mit Stefan Groschupf hat der Chairman und CEO von Datameer (s.u.) behauptet, es brauche weder Datenwissenschaftler noch Monate der Datenmodellentwicklung in den Unternehmen, um Daten aus verschiedenen Datentöpfen gewinnbringend analysieren zu wollen. Wie sehen Sie das?

Udo Hertz: Tatsächlich ist das Datenvolumen in Datawarehouses bereits so groß, dass nur Samples in so genannte Datenwürfel genommen werden. Die dafür entwickelten Datenmodelle sind tatsächlich schwerfällig in der Anpassung.

Hadoop-Cluster, mit denen etwa Datameer arbeitet, sehen wir als Ergänzung zu bestehenden Datensammel- und –aufbewahrungs-Plattformen. Hier gelangen zumeist Rohdaten hinein – Video-Streams, Maschinen- beziehungsweise Sensordaten zum Beispiel – gleichartig, viel aber weniger dicht.

Bisher wurden die Daten erst in ein System gebracht, dafür angepasst und dann extrahiert und analysiert. Hadoop ist dagegen quasi „Schemata-frei“. Die Daten müssen nicht modelliert werden, doch die Qualität ist ungewiss.

Bildergalerie
Bildergalerie mit 7 Bildern

Doch das Datensammeln und -aufbewahren ist eine Sache. Dis größere Herausforderung liegt in der Analyse. Wir bieten diverse Tools dafür an, zum Beispiel Text Mining für Hadoop mit "Infosphere Big Insight" und die Echtzeit-Analyse von Datenströmen "Infosphre Streams" und für die Visualisierung und Informations-Integration den „Infosphere Information Server“ (siehe: Bildergalerie).

Braucht Big Data eigentlich In-Memory-Computing?

Udo Hertz: Eigentlich ist Schnelligkeit und Big Data ein Konflikt, weil sich die Anwender nicht so viel Memory leisten wollen. Andererseits spielt Performance für die Schnelligkeit, mit der die Entscheidungsfindung im operativen Geschäft untermauert werden soll, eine ganz, ganz, ganz große Rolle.

Also muss Memory näher an das Processing rücken und die Software die mit Flash-Speichern bestückte Hardware, etwa durch eine spaltenweise Verarbeitung, unterstützen. Da kommt kein Kunde darum herum.

IBM bietet verschiedene Möglichkeiten an, die Performance zu erhöhen (siehe: Bildergalerie), etwa mit „Netezza“ oder der Funktion „Blu Accelleration“ in DB2. Damit ist eine In-Memory-Verarbeitung möglich, aber durch das Vektoring auch ein gesteigertes Parallel-Processing.

Artikelfiles und Artikellinks

(ID:42215976)