Lagebericht von Mayato zur Marktsituation im Datenanalyse-Umfeld Data-Mining-Werkzeuge im Praxistest

Redakteur: Dr. Stefan Riedl

Das Berliner Unternehmen Mayato berät in Sachen Data Mining (DM). In einer Studie haben die Berater fünf gängige Werkzeuge unter die Lupe genommen. IT-BUSINESS sprach mit Mayato-Chef Georg Heeren über die Lage des DM-Marktes.

Anbieter zum Thema

ITB: Sie haben in der Studie „Data Mining 2010“ gängige Data-Mining-Suiten und -Tools unter die Lupe genommen. Wie lautet ihr Resümee?

Heeren: Zum einen hat der Reifegrad von Data-Mining-Tools spürbar zugenommen, was sich für den Anwender durch einen einfacheren Einstieg positiv bemerkbar macht. Zum anderen haben uns die Unterschiede im Funktionsumfang und in der Laufzeit der Algorithmen überrascht. Die waren deutlicher als erwartet, zumal es sich beispielsweise beim Cross-Selling - also Assoziations- und Sequenzanalysen - um weitgehend standardisierte und langjährig bekannte Analyseszenarien handelt.

ITB: Welche Suiten wurden denn untersucht und worauf lag Ihr Hauptaugenmerk?

Heeren: Wir haben bewusst ganz unterschiedliche Kategorien an Data-Mining-Werkzeugen getestet, um die unterschiedlichen Konzepte und Analyseansätze der Hersteller direkt vergleichen zu können. Zu den untersuchten DM-Suiten gehören der SAS Enterprise Miner 6.1 und der Statsoft Statistica Data Miner 9. Als Open-Source-Anwendung wurde KNIME 2.0.3, von der Uni Konstanz, einbezogen. Außerdem haben wir mit dem SAP BW 7.0 ein Business-Intelligence-Werkzeug und mit dem KXEN Analytic Framework 5.1.1 eine Lösung für Self-Acting-Data-Mining (siehe Kasten „Ergänzendes zum Thema“) auf den Prüfstand gestellt. Im Praxistest wurden die Werkzeuge anhand eines großen Testdatensatzes von 1,8 Millionen Zeilen im Detail untersucht. Dazu haben wir eine typische Fallstudie entworfen und mit diesem Szenario den gesamten Data-Mining-Prozess durchlaufen, einschließlich der Datenvorverarbeitung sowie Darstellung und Interpretation der Ergebnisse. Die Ergebnisse wurden genau protokolliert und in eine Endwertung überführt. Hinzu kommen Bewertungskriterien wie Bedienbarkeit, Stabilität, Systemverhalten bei großen Datenmengen, Dokumentation und die Gesamteffizienz des Analyseprozesses. Nach unseren Erfahrungen sind dies die wichtigsten Kriterien, die potenzielle Nutzer zur Auswahlentscheidung heranziehen. Zusätzlich zum Praxistest wurde für jedes der Werkzeuge eine detaillierte Funktionsübersicht mit dem Fokus auf Assoziations- und Sequenzanalysen erstellt.

ITB: Data Mining kommt aus dem wissenschaftlichen Bereich, wurde dann von Großunternehmen eingesetzt und wandert aktuell in den Mittelstand. Welche DM-Werkzeuge sind denn eher für Großunternehmen und welche für Mittelständler ausgelegt?

Heeren: Sie haben Recht, der Mittelstand holt diesbezüglich auf. Eine pauschale Empfehlung fällt dennoch schwer. Denn ein Mittelständler beispielsweise im Lebensmitteleinzel- oder Versandhandel hat zuweilen größere Datenmengen zu analysieren als mancher Großkonzern aus anderen Branchen. Für den schnellen Einstieg eignen sich eher Data-Mining-Werkzeuge mit reduziertem Funktionsumfang, was auch die Komplexität und Dauer einer Einführung deutlich senkt. Allerdings muss der Analysebedarf zuvor möglichst genau ermittelt werden. Gut für Mittelständler eignet sich auch das Self-Acting-Data-Mining-Werkzeug KXEN Analytic Framework, wenn man mit leichten Einschränkungen in der Funktionalität leben kann. KXEN bietet die einsteigerfreundlichste Bedienung des Testfeldes und punktet zusätzlich mit seinem unerreicht schnellen, selbstentwickelten Assoziationsverfahren, das auch mit großen Datenmengen ohne Probleme umgeht.

Lesen Sie auf der nächsten Seite mehr zu den Unterschieden der Tools, zu Open-Source-Lösungen sowie zu wichtigen Auswahlkriterien.

(ID:2043719)