Aktueller Channel Fokus:

Digital Transformation

Apache Hadoop

Cloudera – Tools für ­Data Scientists

| Autor: Dr. Stefan Riedl

Data Scientists sind Mangelware auf dem Arbeitsmarkt.
Data Scientists sind Mangelware auf dem Arbeitsmarkt. (Bild: scandinaviastock - stock.adobe.com)

Auf Hadoop-Basis bietet Cloudera Werkzeuge für Data Scientists. Das Partnerprogramm des Unternehmens ­birgt Möglichkeiten für den Channel, sich in dieses lukrative Umfeld „reinzufuchsen“.

2008 gründeten Christophe Bisciglia (bis dahin: Google), Amr Awadallah (bis dahin: Yahoo), Mike Olson (bis dahin: ­Oracle) und Jeff Hammerbacher (bis dahin: Facebook) das Unternehmen ­Cloudera. Die Ausrichtung kann als kleinster gemeinsamer Nenner der IT-Größen aufgefasst werden, bei denen die Gründer bis dahin beschäftigt waren: Big Data im Bereich unstrukturierter Daten. Wolfgang Huber, Senior Regional Sales Director, Central and Eastern Europe, Cloudera, blickt auf die Anfänge vor 10 Jahren zurück: „Cloudera ist trotz des Namens in On-Premises-Manier gestartet, allerdings war bereits geplant, auf Cloud-Dienste zu setzen.“

Wenn wie so oft von der Datenflut die Rede ist, sind häufig unstrukturierte Daten gemeint. Also Daten, die in einer nicht-formalisierten Struktur vorliegen.

Ihr Anteil am Datenaufkommen steigt tendenziell, sei es in Hinblick auf Gesichtserkennung im Security-Umfeld, Spracherkennung, Videodaten von Über­wachungskameras, digitalen Bildern oder PDF-Dokumenten.

Digitalisierung und Mittelstand

Der gelbe Elefant ist für Hadoop das, was für Linux der Pinguin ist. Wird er in einer KI aufgehen und die Weltherrschaft an sich reißen?
Der gelbe Elefant ist für Hadoop das, was für Linux der Pinguin ist. Wird er in einer KI aufgehen und die Weltherrschaft an sich reißen? (Bild: ViennaFrame - stock.adobe.com)

Cloudera beschäftigt sich insbesondere mit deren Auswertung und baut auf einer Hadoop-Distribution auf, ist also im Kern Open Source. Hadoop-Technologie ist prädestiniert dafür, Daten und Aufgaben auf Systeme – beispielsweise eine Reihe von Rechnern – zu verteilen, um sie auf einem möglichst skalierbaren System möglichst effizient verarbeiten zu können. „Durch Mustererkennung und Big-Data-, beziehungsweise KI-Technologie lassen sich damit viele Anwendungsfälle abdecken. Beispielsweise wie sich jemand oder etwas bewegt und zwar physisch auf Basis von Videodaten oder virtuell im Sinne von Online-Bewegungen. Es können Kundenbedürfnisse ermittelt und Kundenprofile angelegt werden. Auch Predictive Maintenance ist ein großer Wachstumsmarkt, der zunehmend vom Enterprise in den Mittelstandsmarkt wandert“, ist Huber überzeugt.

Ergänzendes zum Thema
 
Cloudera – Datananalyse auf Hadoop-Basis

Praxisbeispiele

Wolfgang Huber, Senior Regional Sales Director Central and Eastern Europe, Cloudera
Wolfgang Huber, Senior Regional Sales Director Central and Eastern Europe, Cloudera (Bild: Cloudera)

„Beispielsweise könnte sich ergeben, dass Kunde X bei der Online-Bestellung verloren ging, als es um die Frachtkosten aufpoppten. Wird er identifiziert könnte es sein, dass er an einem vermeintlich zufällig frachtkostenfreien Tag einkauft und ihm das entsprechend angezeigt wird“, so der Cloudera-­Vertriebsleiter und legt ein weiteres Beispiel nach: „Basierend auf Patientendaten kann durch immer weitere Iterationen selbstlernender Systeme immer besser vorausgesagt werden, bei welchen aus dem Krankenhaus entlassenen Patienten das Risiko für einen Herzinfarkt am größten ist, um entsprechende Maßnahmen zu treffen.“ Oder ähnlich wie erfahrene Werkstattmeister oft am Klang von Motoren heraushören, was zu tun ist, erzielen KIs bei dieser Aufgabe inzwischen sehr gute Trefferquoten, mittels Analysen entsprechender Wave-Files, so Huber. Allerdings sind hier auch im Sinne von Predictive Maintenance Echtzeitanalysen möglich, damit reagiert werden kann, bevor etwas einen Defekt aufweist.

KI und Weltherrschaft

Das „Master Control Program“, „Skynet“, „Colossus“ – die Science Fiction ist voll von Künstlichen Intelligenzen, die die Weltherrschaft an sich reißen wollen. Derlei Szenarien werden auch abseits der Belletristik ernst genommen.

Augenzwinkernd witzelt Huber in diesem Zusammenhang: „Wenn die Science Fiction behält und eines Tages eine KI die Weltherrschaft übernehmen wird, dann wird diese eher von Cloudera und der Open-Source-Community, als von IBM kommen.“

Der Cloudera-Werkzeugkasten

Clouderas Tools für Data Scientists umfassen einen kostenfreien, aber begrenzten Open-Source-Teil namens „Cloudera Express“ sowie eine kostenpflichtige, erweiterte Version, die gehobene Anforderungen in Hinblick auf Support, Sicherheit, Auditierbarkeit und Compliance erfüllen kann. Der kostenpflichtige „Cloudera Enterprise Data Hub“ dient dem Erstellen und Nutzen von Data Lakes. Der ebenfalls kostenpflichtige „Cloudera Director“ managed und verteilt Daten und Zugriffe in einem Multi-Cloud-Umfeld, bindet also auch AWS, Azure oder die Google-Cloud ein. Der „Cloudera Navigator“ ergänzt um Funktionen wie Datenverschlüsselung von Data Lakes, um DSGVO-konform arbeiten zu können.

„Unser definierter Zielmarkt sind die 8.000 größten Firmen der Welt, allerdings zeichnet sich bereits ab, dass das Ganze im Rahmen der fortschreitenden Digitalisierung zu einem Mainstream-Thema wird“, ist Huber überzeugt. Das wird Konsequenzen nach sich ziehen. Zum einen werden so genannte Data Scientists noch rarer auf dem Arbeitsmarkt werden, als sie es eh schon sind, zum anderen werden sich auf kurz oder lang wohl auch klassische Systemhäuser und -Integratoren mit dem Thema auseinandersetzen.

Lukratives Thema zum „Reinfuchsen“

Data Scientists sind selten auf dem Arbeitsmarkt. Vertreter dieser Zunft legen fest, welche Rohdaten benötigt werden und werten sie aus. Der Data Scientist benötigt eine Querschnittsausbildung, beispielsweise mit Kenntnissen über Statistik, IT (Grundlagen der Programmierung, SQL und Datenbanken), Unternehmensstrukturen und Psychologie. Im Hochschulumfeld gibt es inzwischen Master-Studiengänge für Informatiker, die für dieses Umfeld berufsqualifizierend sein sollen. Ergänzend wird das Berufsbild durch den „Data Artist“, dessen Aufgabe vor allem die Visualisierung der gewonnen Informationen ist.

Wie von Huber angedeutet, wird auch der Mittelstand diese Technologie adaptieren. Dann wird „Big Data“ ein klassisches Systemhaus- und Systemintegratoren-Thema. Vor diesem Hintergrund bietet sich ein weiterer Einstieg, wenn man sich der Perspektive Hubers anschließt: „Das Cloudera-Partnerprogramm bietet Möglichkeiten, reinzuwachsen, mittels Online- und Class-Room-Trainings. Wir arbeiten aber auch eng mit verschiedenen Hochschulen zusammen.“ Jemand aus der klassischen Reseller-Community, der im BI-Thema drin ist, dürfte hier relativ schnell Fuß fassen können, so der Cloudera-Vertriebsleiter.

Kommentare werden geladen....

Sie wollen diesen Beitrag kommentieren? Schreiben Sie uns hier

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45207578 / Hybrid-IT & Multi-Cloud)