Aktueller Channel Fokus:

Gaming & eSports

Cloudera nach dem Merger mit Hortonworks

Gestreamter Rohdaten-Salat ist gesund...

| Autor: Dr. Stefan Riedl

Daten-Streams in Echtzeit auszuwerten, ist die Königsdisziplin im Analytics-Segment.
Daten-Streams in Echtzeit auszuwerten, ist die Königsdisziplin im Analytics-Segment. (Bild: enotmaks - stock.adobe.com)

...außer für die Datenbank-Hersteller. Mit Produkten wie denen von Cloudera, die auf dem Open-Source-Framework Apache Hadoop aufsetzen, können Data Scientists direkt mit ­unstrukturierten Rohdaten arbeiten – teilweise gestreamt und bei Echtzeit-Auswertung.

Wenn man so will, greift Big Data den Daten­bankmarkt an, weil Unternehmen wie Cloudera auch direkt mit Rohdaten ­arbeiten können, beziehungsweise mit unstrukturierten Daten. Klassische Datenbanken wurden für strukturierte Daten geschaffen, „mit denen wir selbstverständlich auch umgehen können“, sagt Wolfgang ­Huber, Senior Regional Sales Director bei Cloudera. In den letzten Monaten gab es bei Hubers Arbeitgeber im Rahmen des Mergers mit Hortonworks viele Neuerungen. Angekündigt wurde der Zusammenschluss am 3. Oktober vergangenen Jahres, und bereits drei Monate später, am 3. Januar 2019, war der formaljuristische Zusammenschluss vollzogen. Die gemeinsame Basis zwischen Cloudera und Hortonworks ist Apache Hadoop. Es ist ein freies, in Java geschriebenes Open-Source-Framework, an dem die Cloudera-Gründer, aber auch Entwickler von Facebook, Google, AWS, Yahoo oder Hortonworks beteiligt waren oder sind. Hadoop ist die Grundlage, um Daten und Rechenaufgaben auf ein Rechnernetzwerk zu verteilen und dabei theoretisch unendlich zu skalieren.

Hadoop zur Aufgaben-Verteilung

Zur Auswertung des „Rohdatensalats“ nutzt Cloudera Hadoop-Technologie, um Daten und Aufgaben auf Systeme zu verteilen, um sie auf einem möglichst skalierbaren System möglichst effizient verarbeiten zu ­können. Durch Mustererkennung und Big Data beziehungsweise KI lassen sich damit viele Anwendungsfälle abdecken. So lässt sich beispielsweise erkennen, wo und wie sich jemand oder etwas bewegt und zwar physisch auf Basis von gestreamten Videodaten oder virtuell im Sinne von Online-Bewegungen innerhalb eines Internet-Kaufhauses.

Es können Kundenbedürfnisse ermittelt und -profile angelegt werden. Auch ist ­Predictive Maintenance ein großer Wachstumsmarkt, der zunehmend vom Enter­prise in den Mittelstandsmarkt wandert.

Cloudera plus Hortonworks

Während Cloudera stets mehr in Richtung Machine Learning, Data Science, Data Warehousing und Künstliche Intelligenz unterwegs war, engagierte sich Hortonworks mehr im Segment „Data Flow“ und war letztlich von der Frage getrieben, wie große Mengen an zu verarbeitenden Daten in das System hineinkommen. „In Zeiten von IoT wird die Frage immer wichtiger, wie man schnell einen großen Datenstream für eine Echtzeitanalyse in ein System bekommt. Ich weiß beispielsweise, dass ein großes Kreditkartenunternehmen pro Tag rund 10 Petabyte an Daten analysiert und verarbeitet“, verrät der Datenspezialist.

Zusammenschluss und Zertifizierung

„Technologisch und vom Ergänzungs­potenzial war der Zusammenschluss daher sehr sinnvoll“, so Huber. „Das gemeinsame Unternehmen kam per Aktientausch zustande. Der CEO und der CFO kamen von der Cloudera-Seite.“ Die kombinierte Firma hat nun etwa doppelt so viele Kunden und doppelt so viele Mitarbeiter und einen doppelt so hohen Jahresumsatz. Ferner sei eine große Firma schwerer zu übernehmen und folglich stabiler, führt der Vertriebsleiter aus. Zudem müssen sich Technologie- und Appliance-Partner wie HP, Dell, Oracle oder Teradata jetzt nur noch einmal zertifizieren und nicht bei beiden Firmen. „Cloudera-Lösungen gelangen beispielsweise über Oracle und Bechtle an den Endkunden – oder über IBM und deren Channel-Partner“, erklärt Huber.

Cloudera Data Platform

Die Software, die das Portfolio der alten Cloudera mit der von Hortonworks vereint, ist die neue „Cloudera Data Platform“ (CDP). Neu ist beispielsweise, dass Data Scientists nun auch in einem containerisierten Umfeld arbeiten können. Vor dem Merger war das bei Cloudera lediglich im Bare-Metal-Bereich und in virtualisierten Umgebungen möglich. Außerdem ist die CDP nun kompatibel zu allen fünf großen Cloud-Plattformen als Datenquelle für weitere Analysen:

  • AWS (Amazon Web Services)
  • Microsoft Azure
  • GCP (Google Cloud Platform)
  • Oracle Cloud Infrastructure (OCI)
  • IBM Cloud
Ergänzendes zum Thema
 
Künstliche Intelligenz und die Weltherrschaft

Entwickler bleiben

Wolfgang Huber, Senior Regional Sales Director, Cloudera
Wolfgang Huber, Senior Regional Sales Director, Cloudera (Bild: Cloudera)

Vergleicht man das Geschäft von Cloudera und Hortonworks vor dem Merger, ergeben sich rund 70 Prozent Überlappungen bei der Arbeit am Code. Entlassungen drohten dennoch nicht. „Heutzutage verzichtet man auf keine guten Entwickler. Daher nutzen wir die Synergien und setzen jene freigewordenen 30 Prozent an Entwicklungsressourcen für die Weiterentwicklung ein“, verrät Huber. Ein weiterer Bereich, in den die neu aufgestellte Cloudera viel Entwicklungsarbeit investiert, ist das Machine-Learning-Segment.

Datenflut managen

Was die Umgebung angeht, in der Datenanalyse betrieben wird, ist laut Huber die Hybrid-Cloud „der neue Normalfall“, denn es werde seiner Einschätzung nach immer Workloads geben, die On-Premises bleiben. Hinzu werden aber mehr und mehr virtualisierte Umgebungen, Container oder Bare-Metal-Systeme kommen. Huber hält es grundsätzlich für vernünftig, die Daten dort zu speichern, wo sie anfallen: „Wenn die Daten außerhalb ­anfallen, wie verteilte Sensordaten im Fall eines IoT-Systems, sollten die Daten ­außerhalb des eigenen Rechenzentrums in der Cloud erfasst werden. Fallen die Daten ohnehin hausintern an, sollten sie unter Berücksichtigung der Kostenfrage intern gespeichert werden – etwa wenn ein Internethändler Korrelationen bei seinen Verkaufsdaten mit Wetterdaten, Jahreszeiten oder ähnlichem auswertet.“ Oder wenn im Finance-Bereich nach Verstößen gegen das Geldwäschegesetz gesucht wird beziehungsweise Daten zur Kreditwürdigkeit ausgewertet werden, ­ergänzt Huber. In diesem hybriden Umfeld bringe der Cloudera Data Layer über CDP das eigene Rechenzentrum mit der Cloud zusammen.

Kommentare werden geladen....

Sie wollen diesen Beitrag kommentieren? Schreiben Sie uns hier

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45732761 / Software)