IBM-Manager Udo Hertz: "Keiner bietet mehr!" Big Data und IBM – alles eine Sache der Integration

Redakteur: Ulrike Ostler

„Wir haben das umfassendste Leistungsvermögen in Sachen Big Data“, sagt Udo Hertz selbstbewusst, Director of Information Management Development bei IBM Deutschland. Was dazu gehört, erläutert er im Interview.

Firmen zum Thema

"Integration" ist das Schlagwort für die Big-Data-Umgebung von IBM. Der Konzern bietet nach eigener Darstellung das umfassendste Angebot auf dem Markt.
"Integration" ist das Schlagwort für die Big-Data-Umgebung von IBM. Der Konzern bietet nach eigener Darstellung das umfassendste Angebot auf dem Markt.
(Bild: IBM)

Udo Hertz zitiert gerne einmal den amerikanischen Zukunftsforscher John Naisbitt: „We have for the first time an economy based on a key resource [Information] that is not only renewable, but self-generating. Running out of it is not a problem, but drowning in it is.” Diesem Problem widmet sich Hertz und einem riesigen Team. Alleine in Böblingen arbeiten mehr als 300 Mitarbeiter für das Information Management. Big Data gehört zu den Aufgabengebieten.

Und es bleibt eine Aufgabe. Wie Carlo Velten, Senior Advisor bei dem Marktforschungs- und Beratungsunternehmen Experton Group, ausführt, bleibt Big Data in den kommenden zwei bis drei Jahren ein Geschäft für die Infrastrukturanbieter, Analytics-Spezialisten und Beratungsunternehmen. Denn: „Der Markt steckt noch in den Kinderschuhen“.

Umsatz mit Big Data

Das derzeitige Marktvolumen in Deutschland liegt bei ungefähr 600 Millionen Euro, in etwa gleich auf Hardware (214,7 Millionen Euro), Software (227,7 Millionen Euro) und Services (208,2 Millionen Euro) verteilt. Im Jahr 2016 wird ein Gesamtwert von rund 1.6 Milliarden überschritten.

Bildergalerie
Bildergalerie mit 7 Bildern

Doch Big Data ist mehr als IT, sagt Velten. „Die Eigentums- und Verwertungsrechte über die wachsenden Datenbestände von Bürgern, Konsumenten und Unternehmen werden zum alles entscheidenden Wettbewerbs- und Innovationsfaktor.“

Welches Problem hat Big Data heute?

Udo Hertz: Es besteht die Gefahr, erneut einzelne Informations-Silos aufzubauen. Zum Beispiel sind die Analysen, die mit Hadoop-Clustern gefahren werden können, insbesondere für Marketing- und Verkaufsabteilungen interessant. Diese Abteilungen treiben die Einführung voran, ohne Absprachen. Es entstehen quasi Hadoop-Inseln.

Udo Hertz ist Director of Information Management Development bei IBM Deutschland.
Udo Hertz ist Director of Information Management Development bei IBM Deutschland.
(Bild: Udo Hertz/IBM)
Die Herausforderung ist also die Informations-Integration. Somit gehören zu einem Informations-Management eben auch das Warehousing, Business Intelligence, genauso wie die Analyse von SAP-Daten beispielsweise. Schlagworte sind Datenintegration und -Governance.

Ohje! Das klingt nach einem teuren und langwierigen Universalansatz. Dabei gelten doch unternehmensweite Datenmodelle als gescheitert.

Bildergalerie
Bildergalerie mit 7 Bildern

Udo Hertz: Ich denke nicht an einen großen Datentopf. Enterprise-Warehouses haben tatsächlich niemals stattgefunden. Gefordert ist vielmehr, was Gartner-Analysten mit dem Begriff „Logical Warehouse“ umschreiben.

Diese Bezeichnung trifft das, was gewollt ist, ganz gut: Es kann unterschiedliche, verteilte Datentöpfe geben, aber ein einheitliches Management – erstens, um die Daten konsistent zu halten und zweitens um den Umgang damit zu regeln, etwa wer Zugriff auf die Informationen haben kann und darf. Insbesondere hier ist es wichtig, die Informationen durch ein einheitliches Management konsistent zu halten.

Das aber ist unter anderem Sache der IT. Die Idee für den Einsatz von Big Data kommt aus den Geschäftsbereichen, die sich neues Potenzial erschließen wollen. Doch die IT muss dafür sorgen, dass ein unternehmensweites Konzept und eine entsprechende Steuerung dahinter steckt.

Viele Big-Data-Anwendungen haben etwas mit Optimierung zu tun. IBM hat 2009 das Unternehmen Ilog gekauft, Spezialist für Optimierungs-Algorithmen und einer Rules-Engine, mit der sich Analyse-Regeln quasi in natürlicher Sprache formulieren lassen. Eröffnet sich damit ein Weg, den Mangel an so genannten Data Scientists zu kompensieren?

Udo Hertz: Bezüglich der Modellierung mathematischer Modelle haben wir ein starkes Team in Berlin, das unter anderem die Nähe zur Technischen Hochschule nutzt. Die Optimierungsalgorithmen, mit denen Ilog operierte, dienen jedoch vor allem der Verbesserung von logistischen Abläufen, etwa bei der Steuerung von Produktionslinien oder im Verkehrswesen. Allerdings braucht man dafür nicht schrecklich viele Daten und es ist eher eine Modellierungsaufgabe als ein statistisches Problem, als das sich der Umgang mit Big Data darstellt.

Allerdings habe ich mir dazu auch schon immer einmal wieder Gedanken gemacht….

Jüngst im Interview mit Stefan Groschupf hat der Chairman und CEO von Datameer (s.u.) behauptet, es brauche weder Datenwissenschaftler noch Monate der Datenmodellentwicklung in den Unternehmen, um Daten aus verschiedenen Datentöpfen gewinnbringend analysieren zu wollen. Wie sehen Sie das?

Udo Hertz: Tatsächlich ist das Datenvolumen in Datawarehouses bereits so groß, dass nur Samples in so genannte Datenwürfel genommen werden. Die dafür entwickelten Datenmodelle sind tatsächlich schwerfällig in der Anpassung.

Hadoop-Cluster, mit denen etwa Datameer arbeitet, sehen wir als Ergänzung zu bestehenden Datensammel- und –aufbewahrungs-Plattformen. Hier gelangen zumeist Rohdaten hinein – Video-Streams, Maschinen- beziehungsweise Sensordaten zum Beispiel – gleichartig, viel aber weniger dicht.

Bisher wurden die Daten erst in ein System gebracht, dafür angepasst und dann extrahiert und analysiert. Hadoop ist dagegen quasi „Schemata-frei“. Die Daten müssen nicht modelliert werden, doch die Qualität ist ungewiss.

Bildergalerie
Bildergalerie mit 7 Bildern

Doch das Datensammeln und -aufbewahren ist eine Sache. Dis größere Herausforderung liegt in der Analyse. Wir bieten diverse Tools dafür an, zum Beispiel Text Mining für Hadoop mit "Infosphere Big Insight" und die Echtzeit-Analyse von Datenströmen "Infosphre Streams" und für die Visualisierung und Informations-Integration den „Infosphere Information Server“ (siehe: Bildergalerie).

Braucht Big Data eigentlich In-Memory-Computing?

Udo Hertz: Eigentlich ist Schnelligkeit und Big Data ein Konflikt, weil sich die Anwender nicht so viel Memory leisten wollen. Andererseits spielt Performance für die Schnelligkeit, mit der die Entscheidungsfindung im operativen Geschäft untermauert werden soll, eine ganz, ganz, ganz große Rolle.

Also muss Memory näher an das Processing rücken und die Software die mit Flash-Speichern bestückte Hardware, etwa durch eine spaltenweise Verarbeitung, unterstützen. Da kommt kein Kunde darum herum.

IBM bietet verschiedene Möglichkeiten an, die Performance zu erhöhen (siehe: Bildergalerie), etwa mit „Netezza“ oder der Funktion „Blu Accelleration“ in DB2. Damit ist eine In-Memory-Verarbeitung möglich, aber durch das Vektoring auch ein gesteigertes Parallel-Processing.

Artikelfiles und Artikellinks

(ID:42215976)