Gespeicherter Datenmüll Dark Data – vom Problem zur Chance

Autor / Redakteur: Pascal Grasshoff* / Dr. Jürgen Ehneß

E-Autos, papierloses Büro, schön und gut – doch was ist mit den Daten? Schon heute produzieren Rechen- und Datenzentren eine CO2-Menge, die sich vor dem Ausstoß des internationalen Flugverkehrs nicht zu verstecken braucht.

Firmen zum Thema

Dark Data sind „echtem“ Müll gar nicht so unähnlich.
Dark Data sind „echtem“ Müll gar nicht so unähnlich.
(Bild: gemeinfrei / Pixabay )

Laut Schätzungen des IDC-Instituts ist die Gesamtmenge gesammelter Daten von 2015 auf 2020 weltweit von 8,6 auf 44 Milliarden Terabyte gewachsen. Im Vergleich zu 2010 ist die Datenmenge sogar ums Fünfzigfache gewachsen. Doch wer braucht diese Big Data? Für einen Großteil der Daten lautet die Antwort: niemand.

Etwa 52 Prozent der Daten, die Unternehmen speichern, sind entweder nicht ausgewertet oder komplett im digitalen Nirwana verschwunden. Solche Daten werden im Fachjargon auch „Dark Data“ genannt. Ihre Existenz wird vergessen, und die Daten behalten einen undefinierten Wert fürs Geschäft oder werden vollends nutzlos. Letzteres liegt vor allem daran, dass Unternehmen das Aufräumen und Löschen ihres „Datenmülls“ vernachlässigen. Im Schnitt sind knapp ein Drittel der Daten im Unternehmen sogenannte „ROT-Daten“: redundant, obsolet oder trivial.

Deutsches Datenmüllproblem

Dem Databerg Report zufolge steht Deutschland im internationalen Vergleich besonders prekär da. Dieses deutsche Datenmüllproblem hat nichts damit zu tun, dass Deutschland im internationalen Vergleich strengere Aufbewahrungsfristen für Daten hat. Denn bewusst archivierte Daten, deren Auffindbarkeit gewährleistet sein muss, sind keine Dark Data – selbst wenn der letzte Zugriff vor 20 Jahren war. Sind aufbewahrungspflichtige Daten hingegen nicht mehr auffindbar, entstehen ganz andere, rechtliche Probleme.

Digitale Archive bewahren wichtige, rechtskritische Dokumente davor, versehentlich unter Millionen von ROT-Daten zu verschwinden. Stattdessen verwandelt die systematische Archivierung gesammelter Dark Data in spe in wertvolle, geschäftskritische Daten. In Kombination mit einem geeigneten Auswertungstool – unterstützt von KI und Machine-Learning – gewinnen Unternehmen aus als nützlich herausgefilterten Daten neue Erkenntnisse und handfeste Geschäftsvorteile.

Probleme lösen, bevor sie entstehen

Wie konnten die weltweiten Datenmülldeponien so groß werden? Einer der Hauptgründe ist, dass Dark Data echtem, physischem Abfall gar nicht so unähnlich sind: Intelligente Maßnahmen wie Mülltrennung, Recycling oder kompostierbare Materialien verhindern dauerhafte Plastikberge, bevor sie entstehen. Im Gegensatz dazu wird ein Plastikteller, der einmal unter 50 Tonnen Abfall begraben ist, so schnell nicht wieder zu Tage gefördert.

Mit Dark Data ist es ähnlich: Unternehmen müssen ihre Daten sortieren, bevor sie zwischen den Serverreihen eines Datenzentrums verschwinden. Sind Daten einmal vergessen, kostet es Zeit und Geld, zu definieren, was gelöscht oder wiederverwertet werden kann. Wer einmal eine mehrere Terabyte große Festplatte aufgeräumt hat, kennt das Problem: Große Dateien wie Videos stechen aus dem Chaos hervor wie eine Hüpfburg auf einer Mülldeponie. Doch sind große Dateien einmal abgeschöpft, kommen auf jede drei Megabyte große Datei tausend weitere im Kilobyte-Bereich, die sich dennoch zu Gigabytes anhäufen.

Neben der Zeit- und Kostenfrage bleibt die der Autorität und Kompetenz: Wer kann zuverlässig beurteilen, was gelöscht werden darf? Selbst Management und Fachspezialisten fehlt der Überblick über die Relevanz sämtlicher Einzeldokumente. Das gesamte Unternehmen müsste mit anpacken – im Idealfall auch die Personen, die das Unternehmen bereits verlassen haben. Doch selbst dann wären Entscheidungen schwierig. Denn niemand möchte die Person sein, die ein Dokument gelöscht hat, das in einigen Jahren doch noch einmal wichtig wird. Dass es so schwierig ist, Dark Data wieder loszuwerden, zeigt umso mehr, wie groß der Vorteil ist, wenn Unternehmen diesen Kostenfaktor vorbeugend minimieren und in einen strategischen Vorteil verwandeln.

Smart auslesen, intelligent wirtschaften

Big Data bedeuten nicht nur, dass wir mit vielen Daten leben, sondern auch, dass Daten eine große Rolle in unserer Gesellschaft spielen. Schließlich gibt es Unternehmen, die Millionenbeträge für Datensammlungen zahlen, die ihnen neue Erkenntnisse für ihr Geschäft versprechen. Die Unternehmen, die Daten am besten verwenden, werden am Ende die Gewinner sein. Denn je mehr Daten Unternehmen effektiv auswerten, desto mehr lernen sie über ihr eigenes Geschäft.

Jedes betriebliche Dokument enthält Informationen übers Geschäft mit Kunden, Partnern, Lieferanten und mehr. Häufig wird der hohe Wert erst im massenhaften Vergleich sichtbar. Gesammelte Aufzeichnungen über Kundenkorrespondenzen verraten beispielsweise viel über die Effektivität und Potentiale des eigenen Vertriebs. Ähnliches gilt für alte Logs und andere Dateien, die pflichtbewusst erstellt und dann vergessen werden.

Die einfachste präventive Maßnahme gegen Dark Data ist, Dokumente in einem digitalen Archiv zu speichern, das mit sämtlichen ERP-Systemen im Unternehmen verbunden ist. Wichtig ist dabei, dass keine bloßen Standard-PDFs im Archiv landen. Eine entsprechende Software muss die vorliegenden Dokumente auslesen, um die Dateien mit Vermerken zu versehen, anhand derer das Archiv und andere Systeme sie verwalten können.

Aus Dark Data geschäftskritische Daten machen

Aufbauend auf diesen detaillierten Dateivermerken, können KI-gesteuerte Algorithmen die Daten sinnvoll miteinander verbinden und neue Erkenntnisse gewinnen. Anbieter von Archiv- und Capturing-Software wie EASY Software bieten KI-Workshops an, in denen sie erklären, wie Unternehmen diese Technologien am effektivsten verwenden. Wie treffen Unternehmen Vorhersagen über die Preisgestaltung eines Lieferanten? Wie können langjährig etablierte Rechnungsprozesse beschleunigt werden? Wie können Fabriken Stromkosten im sechsstelligen Bereich sparen, indem sie unentdeckte Auslastungsspitzen intelligent vermeiden? All dies basierend auf Daten, die Unternehmen besitzen, aber nicht nutzen.

Dark Data, die smart verwendet werden, sind keine Dark Data mehr. Als geschäftskritische Daten rechtfertigen sie dann auch die Kosten ihrer Speicherung. Gleichzeitig genießen nachhaltige Cloud-Speicher mit erneuerbaren Energien konstanten technologischen Fortschritt und dürften den CO2-Fußabdruck der notwendigen Datenzentren langfristig reduzieren. Bis dahin lässt sich die Menge neuen Datenmülls verringern, indem KI überflüssige Daten automatisiert herausfiltert, bevor sie zu Dark Data werden. Voraussetzung dafür ist ein sauberes Archiv mit gepflegten, ausgelesenen Dateistämmen.

*Der Autor: Pascal Grasshoff, Corporate Communication Specialist, Easy Software

(ID:47580567)