Definition Was sind Data-Pipelines?

Von Erik1 2 min Lesedauer

Anbieter zum Thema

Beim datenbasierten Arbeiten fallen große Mengen an Daten an. Diese müssen gesammelt, analysiert, verarbeitet und weitergeleitet werden. Den Ort, an dem all dies geschieht, nennt man Datenpipeline. Was ist das Besondere an Data-Pipelines?

Grundlagenwissen zum IT-Business(Bild:  © adiruch na chiangmai - Fotolia.com)
Grundlagenwissen zum IT-Business
(Bild: © adiruch na chiangmai - Fotolia.com)

Data-Pipelines ermöglichen die Verwendung von Daten aus den unterschiedlichsten Quellen. Das Ziel ist der Transfer von einem Quellsystem zu einem Zielsystem. Typische Quellen sind APIs, SQL- und NoSQL-Datenbanken. Datenpipelines (bzw. die damit befassten Data Scientists) sorgen bei der Aufbereitung und Weiterleitung der Daten für Konsistenz und einen nachvollziehbaren, reproduzierbaren Ablauf. In der Regel durchlaufen Daten in einer Datenpipeline drei charakteristische Schritte: In der Datenaufnahme werden die Daten zunächst erfasst und extrahiert. In der anschließenden Datentransformation werden sie in das für das Zielsystem erforderliche Format gebracht. Dabei kommen folgende Methoden zum Einsatz: Standardisierung, Deduplizierung, Prüfung, Sortierung und Weitergabe. Im letzten Schritt, der Datenspeicherung, werden die Daten sowohl integriert als auch gespeichert und bedarfsgerecht zugänglich gemacht.

Welche Arten von Data-Pipelines gibt es?

Man unterscheidet zwei Arten von Datenpipelines:

  • Bei der Stapelverarbeitung lädt man die Daten außerhalb der Geschäftszeiten des Unternehmens in ein Repository. Dadurch vermeidet man, dass andere Systeme und Prozesse durch einen zu hohen Workload beeinträchtigt werden.
  • Beim Stream-Processing werden Streamingdaten in Echtzeit verarbeitet und verwendet. Diese Art von Data-Pipeline macht überall dort Sinn, wo Verbraucher sofort über etwas informiert werden müssen - also zum Beispiel in Apps oder Point-of-Sale-Systemen, die Lagerbestände und Verfügbarkeiten anzeigen.

Datenverarbeitung in der Data-Pipeline

Datenpipelines benötigen je nach Anwendungsfall verschiedene Arten von Datenverarbeitungsmethoden. Maßgeblich ist eine explorative Datenanalyse in Verbindung mit den aktuellen, vordefinierten Geschäftsanforderungen. Den Prozess der maßgeschneiderten Datenorganisation bezeichnet man als Data Governance.

Darum ist der Bedarf so hoch

Skalierbare Datenpipelines sind aus mehreren Gründen wichtig: Einerseits weil die Bedeutung von qualitativ hochwertigen Daten stetig zunimmt, andererseits weil an vielen Stellen qualifizierte Data Engineers fehlen und Unternehmen bzw. Organisationen daher nicht schnell und adäquat auf Innovationen reagieren können - es sei denn, sie verwenden Datenpipelines.

Beispiele im Unternehmenskontext und Anwendungsfälle von Data-Pipelines

Datenvisualisierungen und Maschinelles Lernen sind zwei Anwendungsfälle, die im Kontext von Datenpipelines immer wieder genannt werden. Weitere typische Anwendungsbeispiele sind a) Datenverarbeitungs-APIs zur automatischen Extrahierung und Verarbeitung von Daten aus unterschiedlichen Quellen wie E-Mails sowie b) IoT Event Streaming für den Transfer von Daten von einem Edge Device des IoT in eine Cloud.

Data-Pipelines erhöhen die Agilität, beschleunigen die Entscheidungsfindung und optimieren den Prozess der Datenanalyse.

(ID:50019764)

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung