Update-Panne vom 19. Juli 2024 Die IT-Katastrophe lehrt: Habt einen Rettungsplan!

Von Barbara Gribl 6 min Lesedauer

Anbieter zum Thema

Vorfälle wie die CrowdStrike-Panne sollten jedem CEO klar gemacht haben: Notfall-Konzepte und ein schneller Wiederherstellungsplan sind überlebensnotwendig. Denn technische und menschliche Fehler sind nie ganz auszuschließen, von externen Angriffen ganz abgesehen.

Resilienz ist eine der wichtigsten Eigenschaften der IT-Sicherheit und macht im Notfall den Unterschied.(Bild:  Midjourney / KI-generiert)
Resilienz ist eine der wichtigsten Eigenschaften der IT-Sicherheit und macht im Notfall den Unterschied.
(Bild: Midjourney / KI-generiert)

Plötzlich geht nichts mehr. Die Welt steht still. Flüge sind gestrichen, digitale Geräte in Krankenhäusern sind offline, sämtliche Online-­Ticket- und Banking-Systeme funktionieren nicht. Was ein globaler IT-Ausfall bedeutet, wissen wir spätestens seit dem 19. Juli 2024.

Die CrowdStrike-Panne: Was ist passiert?

Ein fehlerhafter Code in den Aktualisierungsdateien der neuen Version der Software „Falcon Sensor“ der Firma CrowdStrike legte Computer von Unternehmen, die das Windows-Betriebssystem von Microsoft verwenden, auf dem gesamten Globus lahm. Dabei sollte die Software die Systeme von CrowdStrike-Kunden sicherer machen. Erst im Frühjahr 2024 verkündete CrowdStrike Erweiterungen der Falcon-Plattform mit breiteren MDR-Services (Managed Detection & Response) für Kunden weltweit. In den Medien kursierte der Vorfall als „größte Panne aller Zeiten“.

Wie ging es nach dem IT-Ausfall weiter?

Am 19. Juli gingen die Dienstleistungen von Fluggesellschaften über das Gesundheitswesen bis hin zur Schifffahrt und dem Finanzwesen nach stundenlangen ­Ausfällen wieder online. Laut George Kurtz, CEO von CrowdStrike, sind 97 Prozent der Windows-Sensoren seit dem 25. Juli wieder online. „Wir sind uns jedoch bewusst, dass unsere Arbeit noch nicht abgeschlossen ist, und wir sind weiterhin bestrebt, jedes betroffene System wiederherzustellen“, schreibt er auf LinkedIn.

CrowdStrike hatte einen vorläufigen Vorfallbericht (PIR) veröffentlicht, in dem detailliert beschrieben wurde, wie es zum Vorfall gekommen ist und welche Maßnahmen vom Unternehmen ergriffen werden, um einen solchen in Zukunft zu ­vermeiden. Viele Unternehmen haben jedoch Tage später immer noch mit einem Rückstau von verspäteten und gestrichenen Flügen sowie Arztterminen, verpassten Aufträgen und anderen Problemen zu kämpfen.

Alles funktionierte kurz nach dem Vorfall auch laut Bundesamt für Sicherheit in der Informationstechnik (BSI) noch nicht und „man kann nicht mit einer sehr schnellen Lösung rechnen“, verkündete Claudia Plattner, Präsidentin des BSI. Die Prognosen zu den Wiederherstellungen sind schwierig – sicher sei, dass es sich wohl kaum um Stunden handeln würde. Dr. Jan Lemnitzer, Assistenz-Professor an der ­Copenhagen Business School und Experte für Cybersicherheit betont, es sei ein Wunder, dass „so ein Vorfall nicht schon vorher passiert ist.“ Dass die digitale Welt so verwundbar sei, führt er auf die Monopolisten-Stellung von Microsoft zurück. Microsoft hingegen argumentiert, dass die Ausfälle entstanden sind, weil die EU von Microsoft verlangt hat, Unternehmen wie CrowdStrike uneingeschränkten Zugang zu Geräten mit Windows zu gewähren. Im Jahr 2009 versprach Microsoft der ­Europäischen Kommission nach einer Wettbewerbsbeschwerde, anderen Herstellern von Sicherheitssoftware vollständigen Zugang zu seinem Windows-Betriebssystem zu gewähren (auch umgangssprachlich „God mode“ genannt). „Ich bin mir nicht sicher, ob die globale IT-­Katastrophe vom Freitag durch den ­ungeschickten Versuch der EU vor 15 Jahren verursacht wurde, unsere monopolistischen Ambitionen auf dem Cybersicherheits-Markt einzudämmen“, kommentiert Ciaran Martin, ein Akademiker aus Oxford, früher Leiter des britischen National Cybersecurity Centre.

Wie können IT-Dienstleister Unternehmen vor IT-Ausfall schützen?

Wer nun die Verantwortung für den Vorfall trägt, sei dahin gestellt. In den ­vergangenen Wochen wurde reichlich darüber debattiert, was genau bei dem IT-Ausfall passiert ist, wie es dazu kommen konnte und welche weitgreifenden Konsequenzen dieser hat. Mit Blick auf den Channel stellen sich aber weitere Fragen: In welcher Verantwortung stehen ­Dienstleister? Was können sie für ihre Kunden tun, um sie dagegen abzusichern, wenn das eigene IT-System auf einmal ­brachliegt?

„Der Vorfall verdeutlicht, dass IT ausfallen kann, auch wenn man alles richtig macht. Den Update-Fehler sollten alle IT-Verantwortlichen zum Anlass nehmen, die Resilienz ihrer IT-Landschaft zu prüfen. Resilienz ist eine kritische Eigenschaft der IT und macht im Notfall den Unterschied“, erläutert Werner Schwarz, Director Strategy & Technology, ACP Holding Deutschland. „Als Unternehmen, gerade im Bereich kritischer Infrastrukturen, muss man jeden IT-Dienstleister abklopfen und sich fragen, wie man diesen notfalls ersetzen kann“, rät Dr. Lemnitzer. Auch ginge es darum, zu schauen, wie man die IT-Unternehmen dazu bekommt, vorher ausreichend zu testen – „auch wenn dies Zeit und Geld kostet“, so Dr. Lemnitzer.

Werner Schwarz, Director Strategy & Technology bei der ACP Holding Deutschland(Bild:  ACP Holding Deutschland)
Werner Schwarz, Director Strategy & Technology bei der ACP Holding Deutschland
(Bild: ACP Holding Deutschland)

Der Vorfall verdeutlicht, dass IT ausfallen kann, auch wenn man alles richtig macht.

Werner Schwarz, ACP

CrowdStrike selbst erwähnt im PIR unter anderem die Resilienz und das Testen von einer Software sowie die Validierung durch Dritte als Maßnahmen, um zu verhindern, dass ein solcher Vorfall nochmal passiert. Christian Popp, Geschäftsführer des Augsburger IT-Dienstleisters Netz16, sieht Distributoren und Dienstleister in der Verantwortung der Qualitätskontrolle der gelieferten Produkte und Updates. „Im Schadenfall hat der Kunde als Vertragspartner nur den Dienstleister und dieser muss ein fachgerechtes Vorgehen nachweisen können. Es liegt also im Eigeninteresse des Dienstleisters, hier professionell aufgestellt zu sein“, führt Popp weiter aus. Zu den Aufgaben gehört dem nach auch, potenzielle Risiken transparent zu kommunizieren, Endnutzer und Administratoren weiterzubilden und aktiv mit Herstellern zusammenzuarbeiten, um Probleme identifizieren zu können.

Wissen, was läuft

Täglich die wichtigsten Infos aus dem ITK-Markt

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung
Es liegt im Eigeninteresse des Dienstleisters, professionell aufgestellt zu sein.

Christian Popp, Netz16

Christian Popp, Geschäftsführer Netz16(Bild:  ben grafik | Benjamin Janot)
Christian Popp, Geschäftsführer Netz16
(Bild: ben grafik | Benjamin Janot)

„Als VAD setzen wir auf Prävention. Denn wenn ein Ausfall eintritt, sind Distributoren in den meisten Fällen nicht mehr involviert. Wir legen bei der Auswahl unserer Hersteller ein besonderes Augenmerk auf den Background, die Lösungsansätze und die Produkte“, erklärt Julian Dorl, Head of Technical Customer Success Operations DACH bei Exclusive Networks. Er erläutert weiter: „Neben einem umfangreichen Produktangebot sind Enablement und Weiterbildung entscheidend, um das Ökosystem der Cybersecurity zu stärken. Daher stellen wir Beratung und Knowhow-Transfer für unsere Partner in den Fokus.“ Ausfälle lassen sich nicht zu hundert Prozent verhindern. Schließlich macht es hier den Unterschied, wie gut die ­Unternehmen auf einen solchen Vorfall vorbereitet sind.

Als VAD setzen wir auf Prävention.

Julian Dorl, Exclusive Networks

Julian Dorl, Head of Technical Customer Success Operations DACH bei Exclusive Networks Deutschland(Bild:  Exclusive Networks)
Julian Dorl, Head of Technical Customer Success Operations DACH bei Exclusive Networks Deutschland
(Bild: Exclusive Networks)

Sollten Unternehmen weiterhin auf große Plattformen setzen?

Ob hierfür eine große Plattform oder Alternativen der richtige Weg sind, ist umstritten, da große Plattformen Vor- sowie Nachteile bergen. Entscheidende Vorteile sind laut Dorl: „Sie sind effizient, reduzieren die Arbeit der Administratoren und Security-Analysten beim Betreiber und sind einfacher zu managen. So wird die menschliche Fehlerquote reduziert und das Sicherheitsniveau verbessert – gerade auch angesichts des Fachkräftemangels.“ „Durch die Größe gibt es allerdings ein hohes Maß an Komplexität, die ­zwangsläufig auch zu einer größeren Angriffsfläche führt“, widerlegt Popp. Somit sind große Plattformen auch ein großes Ziel für Hackerangriffe. Andernfalls können Unternehmen „anstatt rein auf eine große Plattform zu setzen, je nach Thema und Unternehmensgröße, weitere alternative Plattformen für Teile der IT einsetzen. Bei großen Unternehmen geht der Trend beispielsweise zu Hybrid- oder Multi-Cloud-Architekturen. Daneben ist die Kombination mit Open-Source-Plattformen eine Alternative“, so Schwarz.

Schwarz fasst die Verantwortung der Dienstleister aus seiner Sicht am beispielhaften Vorgehen von ACP im Allgemeinen zusammen: „Zusammengefasst unterstützen wir unsere Kunden, indem wir das Gesamtbild betrachten. Wir identifizieren gemeinsam mögliche ausfallkritische IT-Systeme und Services sowie bestehende Abhängigkeiten und erarbeiten nach deren Priorisierung Lösungen zur ­Erhöhung der Resilienz. Wir unterstützen dabei, einen Notfall- und Wiederanlaufplan zu erstellen, in welchem die identifizierten Abhängigkeiten berücksichtigt sind.“

Große Plattformen oder Einzellösungen?

Werner Schwarz, Director Strategy & Technology bei ACP erklärt.

ITB: Ist der Weg, auf große Plattformen zu setzen, weiterhin der Richtige? ­Welche Gründe gibt es dafür?
Schwarz: Ja, es ergibt weiterhin Sinn, auf große Plattformen zu setzen. Aufgrund der durchgängigen Integration und der damit verbundenen Transparenz und einfacheren Verwaltbarkeit erhöht sich häufig das Sicherheitsniveau der IT. Angesichts des Fachkräftemangels ist es für Unternehmen zudem eine gute Wahl, auf große Plattformen und die zugehörigen Services zurückzugreifen.

ITB: Was wären Alternativen? Welche Herausforderungen hätte man dabei?
Schwarz: Anstatt rein auf eine große Plattform zu setzen, könnten Unternehmen, je nach Thema und Unternehmensgröße, weitere alternative Plattformen für Teile der IT einsetzen. Bei großen Unternehmen geht der Trend beispielsweise zu Hybrid- oder Multi-Cloud-­Architekturen. Daneben ist die ­Kombination mit Open-Source-­Plattformen eine Alternative.

Tipps an Kunden, um von IT-Ausfällen verschont zu bleiben

- Resilienz- und Souveränitätsanforderungen einzelner Systeme, Workloads und der Gesamt-IT analysieren
- Erstellung eines aktuellen Notfallplans
- Wiederaufbau redundanter IT-Systeme
- Hybrid- oder Multi-Cloud-Strategie
- Backup-Recovery-Plan
- Qualitätskontrolle der gelieferten Produkte und Updates
- Kundensupport bei Vorfällen
- Transparentes Kommunizieren der potenziellen Risiken
- Weiterbildung der Endnutzer und Administratoren
- Proaktive Zusammenarbeit mit Herstellern, um Probleme zu identifizieren

(ID:50122675)