Aktueller Channel Fokus:

Distribution

Definition

Was ist Deduplication?

| Redakteur: Heidemarie Schuster

Grundlagenwissen zum IT-Business
Grundlagenwissen zum IT-Business (Bild: © adiruch na chiangmai - Fotolia.com)

Deduplication ist ein Verfahren zur Datenkompression, bei dem die Entfernung redundanter Daten nicht auf der Datei-, sondern auf der Blockebene erfolgt. Es dient dazu, den Speicherplatz in Datenbanken zu optimieren. Zum Teil wird die Deduplication parallel zu anderen Kompressionsverfahren angewendet.

Deduplication kommt als Kompressionsverfahren für potenziell redundante Daten vor allem bei Backups, also in der Datensicherung, zum Einsatz. Weitere Anwendungsgebiete sind die Speicherung, die Archivierung und der Transfer von Daten. Grundsätzlich eignet sich das Verfahren für alle IT-Anwendungsbereiche, in denen Daten wiederholt kopiert und auch die Kopien abgespeichert werden.

Potenziell hohe Datenkompression

Durch Deduplication lassen sich im Einzelfall sehr hohe Kompressionsraten erzielen. Die Datenkompression erfolgt durch Softwareanwendungen auf der Grundlage mathematischer Algorithmen. Einige Anbieter von Deduplication-Software geben für ihre Produkte Kompressionsraten von 1:500 an. In der Praxis sind jedoch Verdichtungsraten in einer Spanne von 1:7 bis 1:12 der Regelfall. Das Verfahren ist auf die meisten Datentypen anwendbar. Ausnahmen bilden beispielsweise Videos, die nicht deduplizierbar sind, sich jedoch durch die Verwendung anderer Algorithmen komprimieren lassen.

Wie Deduplication funktioniert

Für die Kompression von Daten gibt es vom Grundsatz her zwei unterschiedliche Verfahren. Das sogenannte Single Instance Storage (SIS) zielt darauf ab, identische Daten aufzufinden und zu löschen. Ein klassisches Einsatzgebiet für SIS ist beispielsweise die E-Mail-Archivierung. E-Mail-Anhänge werden häufig an mehrere Adressaten versendet. Ohne Kompression würden diese Dateien bei der Archivierung mehrfach abgespeichert. SIS ermöglicht, lediglich eine Kopie des Anhangs zu archivieren.

Deduplication setzt dagegen auf der Ebene von Datenblöcken an. Das entsprechende Verfahren heißt Fingerprinting oder Hash. Dabei werden Daten in einzelne Segmente (Chunks) zerlegt, die unterschiedlich groß sein können. Die Analyse der Chunks erfolgt auf Byte-Ebene. Gesucht wird nach den Segmenten mit den größten Wiederholungsraten. Durch die Deduplication ist es somit möglich, identische Daten zu erkennen. Um Redundanzen so weit wie möglich auszuschalten, wird danach eine Referenzierung (Pointing) auf das Ursprungselement vorgenommen. Das Verfahren zielt darauf ab, innerhalb der Datenblöcke die Originaldaten aufzufinden. Ein solcher „Zeiger“ benötigt wesentlich weniger Speicherplatz als die referenzierten Daten. Die Wiederherstellung einer gepointeten Datei erfolgt erst, wenn sie tatsächlich aufgerufen wird. Der Algorithmus der Deduplication-Software gibt die Regeln für das Zusammenfügen ihrer Einzeldaten vor. Hier fließen sowohl die einzigartigen Bestandteile der jeweiligen Datei als auch Datenkomponenten ein, die diese mit anderen Dateien teilt.

Deduplication – Methoden

Für die Deduplication von Daten gibt es zwei unterschiedliche Methoden:

  • Bei der Verwendung des Reverse Referencing beziehen sich alle identischen Daten auf das erste gemeinsame Datenelement. Nur dieser Datensatz wird archiviert.
  • Das Forward Referencing archiviert den jeweils letzten gemeinsamen Datenblock. Er bildet die Referenz für alle vorher aufgetretenen gemeinsamen Datenblöcke.

Auf der Anwendungsebene werden außerdem Inband- und Outband-Deduplication unterschieden. Im ersten Fall erfolgt die Analyse des Datenstroms im laufenden Betrieb. Eine Outband-Kompression wird dagegen erst nach der Speicherung der Daten vorgenommen. Sie ermöglicht die parallele Analyse mehrerer Datenströme.

Kommentare werden geladen....

Sie wollen diesen Beitrag kommentieren? Schreiben Sie uns hier

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45302452 / IT-BUSINESS Definitionen)