Definition Was ist Site Reliability Engineering (SRE)?

Autor / Redakteur: zeroshope / Sarah Böttcher

Site Reliability Engineering (SER) meint ein Konzept, bei dem IT-Services von Software betrieben werden, um zuverlässig zu arbeiten. Der Ansatz stammt von Google und zollt dem Umstand Rechenschaft, dass diese Aufgaben manuell nicht mehr zu meistern sind.

Firmen zum Thema

Grundlagenwissen zum IT-Business
Grundlagenwissen zum IT-Business
(Bild: © adiruch na chiangmai - Fotolia.com)

Site Reliability Engineering (SRE) bedeutet frei übersetzt „Ingenieurswesen zur Steigerung der Zuverlässigkeit bestimmter Angebote“. Konkret geht es dabei um IT-Services. Ihr Betrieb wurde lange manuell gewährleistet. Durch die Explosion angebotener Services sowie ihrer stetigen Verfeinerung ist dies jedoch für viele Anbieter kaum oder überhaupt nicht mehr zu leisten. Google stellte deshalb als erster Anbieter um. Software-Ingenieure wurden damit beauftragt, Programme zu schreiben, die alle Routineaufgaben zum Betrieb eines IT-Dienstes übernehmen. Das Site Reliability Engineering war damit geboren.

Die Aufgaben von SRE

Das SRE muss die folgenden Funktionen erfüllen:

  • autonome Verwaltung von Systemen;
  • Automatisierung der anfallenden Operationsaufgaben;
  • eigenständige Behebung von Problemen;
  • sofortige Weiterleitung von nicht selbst lösbaren Problemen;
  • flexible Anpassung an wechselnde Bedürfnisse der Nutzer (z.B. durch Skalierungen).

Die Ziele von Site Reliability Engineering

Möglich wurde das Site Reliability Engineering durch eine Umstellung in vielen Entwicklungsteams auf Cloud-native Strategien. Dienste und Hardware sind getrennt, was es ohnehin nötig machte, bestimmte Aufgaben per Software ablaufen zu lassen, da kein physischer Zugang zur Hardware mehr möglich ist. Diesen Prozess auszudehnen, war der nächste logische Schritt. Deutlich werden hier auch die weiteren Ziele von SRE neben der zentralen Funktion, Dienste so zuverlässig wie möglich anzubieten:

  • Services-Teams sollen mehr Freiraum bekommen, um beispielsweise die Dienste zu verbessern.
  • Die Nutzererfahrung soll auf dem bisherigen Niveau bleiben oder sich sogar verbessern, da die Services beispielsweise schneller ansprechen.
  • Reduktion von Fehlern. Hierfür wird ein Fehlerbudget eingeführt ist dieses aufgebracht, dürfen sich die Ingenieure nicht mehr um Verbesserungen kümmern, sondern müssen das bestehende System stabilisieren. Sie sollen so von Beginn an konsistent arbeiten.

(ID:47115960)