2. Wartungsverträge und Service Level Agreements
Lernziele
Nach diesem Kapitel können Sie: - Wartungsverträge strukturieren und deren Bestandteile benennen - Service Level Agreements (SLAs) entwerfen und messbare Kennzahlen definieren - Verfügbarkeitsmetriken (RPO, RTO, MTTR) berechnen und interpretieren - Die Beziehung zwischen Wartungsvertrag und SLA verstehen - SLAs an Kundenbedürfnisse anpassen und überwachen
Modul Übersicht
Modul 13 - Kapitel 2
Lesezeit: ~20 Min
Quelle: FS-ITB-13-A-laufender Betrieb_V0d .pdf
1. Grundlagen der IT-Betreuung
Nach der Einführung einer IT-Lösung ist die dauerhafte Betreuung und Pflege der Systeme entscheidend für einen stabilen und sicheren Betrieb. Diese Aufgaben werden in der Regel in einem Wartungsvertrag festgelegt.
Bedeutung für den IT-Berater
Ein stabiler Betrieb wird durch rechtssichere Rahmenbedingungen in Form von Wartungsverträgen und Service Level Agreements (SLAs) gewährleistet. Für IT-Berater ist die Gestaltung dieser Verträge ein zentraler Aspekt der Nachbetreuung, da sie:
- Klare Rahmenbedingungen für beide Parteien schaffen
- Erwartungen transparent und messbar machen
- Konflikte im operativen Betrieb vermeiden
- Die Qualität der IT-Services dauerhaft sichern
- Die Basis für eine langfristige Partnerschaft bilden
Praxisbeispiel
Ein mittelständisches Unternehmen implementiert ein neues ERP-System. Ohne klaren Wartungsvertrag entsteht nach drei Monaten Unklarheit: Das Unternehmen erwartet 24/7-Support bei Störungen, während der Dienstleister nur Geschäftszeiten-Support in den Aufnahmepreis einplant. Diese Situation führt zu Frustration und erfordert eine nachträgliche Vertragsanpassung, die mit zusätzlichen Kosten und administrativem Aufwand verbunden ist.
2. Der Wartungsvertrag
Ein Wartungsvertrag regelt, welche Leistungen der IT-Dienstleister im laufenden Betrieb erbringt. Er bildet die vertragliche Grundlage für die dauerhafte Zusammenarbeit nach Projektabschluss.
Typische Inhalte eines Wartungsvertrags
2.1 Leistungsumfang
Der Wartungsvertrag definiert präzise, welche Leistungen erbracht werden:
| Leistungskategorie | Beispiele |
|---|---|
| Software-Updates | Patch-Management, Version-Updates, Security-Fixes |
| Fehlerbehebung | Fehleranalyse, Bugfixing, Hotfixes |
| Systemüberwachung | Monitoring, Health Checks, Präventivmaßnahmen |
| Benutzerunterstützung | User Helpdesk, First-Level Support, Schulungen |
| Datenbankpflege | Backup-Überwachung, Optimierung, Konsistenzprüfungen |
| Dokumentation | Systemdokumentation, Handbücher, Betriebsanleitungen |
2.2 Zuständigkeiten
Ein klarer Wartungsvertrag definiert die Verantwortlichkeiten zwischen Dienstleister und Kunde:
flowchart LR
subgraph "Kunde Verantwortlichkeiten"
A[Infrastruktur bereitstellen]
B[Benutzer informieren und schulen]
C[Zugriffe gewähren]
D[Backups prüfen]
end
subgraph "Dienstleister Verantwortlichkeiten"
E[Monitoring durchführen]
F[Updates einspielen]
G[Support leisten]
H[Dokumentation pflegen]
end
A -.-> E
B -.-> G
C -.-> F
D -.-> H
2.3 Laufzeit und Kündigungsfristen
- Vertragslaufzeit: Typischerweise 12-36 Monate, oft mit automatischer Verlängerung
- Kündigungsfrist: Meist 3-6 Monate zum Vertragsende
- Preisanpassungsklauseln: Regelmäßige Preisanpassungen basierend auf Index oder Inflation
- Übergangsregelungen: Übergabe von Dokumentationen bei Vertragsende
2.4 Kostenmodelle
Verschiedene Kostenmodelle für Wartungsverträge haben sich etabliert:
| Modell | Beschreibung | Vor- und Nachteile |
|---|---|---|
| Pauschale | Fester monatlicher Betrag | ✓ Planbar; ✗ Geringe Flexibilität |
| Zeitabhängig | Abrechnung nach tatsächlichem Aufwand | ✓ Flexibel; ✗ Nicht planbar |
| Leistungsabhängig | Abrechnung nach erbrachten Leistungen | ✓ Fair; ✗ Aufwendige Abrechnung |
| Hybrid | Kombination aus Pauschale und Zeitabhängigkeit | ✓ Ausgewogen; ✗ Komplex |
Rechtliche Aspekte
Ein professioneller Wartungsvertrag sollte folgende rechtliche Aspekte berücksichtigen:
- Gewährleistung: Abgrenzung zwischen Wartung und Gewährleistung
- Haftung: Haftungsbeschränkungen bei Ausfällen oder Datenverlust
- Versicherung: Haftpflichtversicherung des Dienstleisters
- Datenschutz: Einhaltung der DSGVO bei Datenzugriffen
- Subunternehmer: Erlaubnis der Nutzung von Subunternehmern
- Geheimhaltung: Vertraulichkeitsvereinbarungen
Praxistipp
Lassen Sie Wartungsverträge immer rechtlich prüfen, insbesondere bei kritischen Systemen. Vermeiden Sie vage Formulierungen wie "bester Wissensstand" oder "angemessene Zeiträume". Definieren Sie stattdessen konkrete Zeitangaben, messbare Kriterien und klare Verantwortlichkeiten.
3. Service Level Agreement (SLA)
Ein Service Level Agreement (SLA) ist ein wichtiger Bestandteil eines Wartungsvertrags. Es beschreibt die Qualität und Verbindlichkeit der zu erbringenden Leistungen anhand messbarer Kriterien.
Definition und Zweck
Das SLA definiert das "Wie gut" der Service-Erbringung. Während der Wartungsvertrag festlegt, WAS getan wird, definiert das SLA, WIE GUT und WIE SCHNELL die Leistung erbracht werden muss.
Zweck eines SLA:
- Transparenz: Klare, messbare Definitionen der Servicequalität
- Nachvollziehbarkeit: Überprüfbare Kriterien für beide Parteien
- Verbindlichkeit: Rechtlich relevante Qualitätsvereinbarungen
- Konfliktvermeidung: Klare Messgrößen reduzieren Streitfälle
- Stetige Verbesserung: Grundlage für Monitoring und Optimierung
Zentrale SLA-Kennzahlen
3.1 Verfügbarkeit (Availability)
Die Verfügbarkeit ist die wichtigste Kennzahl in den meisten SLAs. Sie wird als Prozentsatz der Zeit angegeben, in der ein System innerhalb der vereinbarten Servicezeiten funktionsfähig ist.
Berechnung:
Typische Verfügbarkeitsstufen:
| Verfügbarkeit | Ausfallzeit pro Jahr | Anwendungsbeispiel |
|---|---|---|
| 99,9% | ~8,8 Stunden | Standard-Business-Systeme |
| 99,99% | ~52 Minuten | Kritische Geschäftssysteme |
| 99,999% | ~5 Minuten | Hochverfügbare Systeme, Banking |
| 99,9999% | ~31 Sekunden | Mission-Critical-Systeme |
Berechnungsbeispiel
Ein System hat eine vereinbarte Verfügbarkeit von 99,5%. In einem Monat (30 Tage, 720 Stunden) war das System insgesamt 4 Stunden nicht verfügbar.
Verfügbarkeit = (1 - 4/720) × 100% = (1 - 0,0056) × 100% = 99,44%
Das SLA von 99,5% wurde nicht erreicht. Der Dienstleister hat eine Vertragsstrafe oder Gutschrift gemäß SLA-Bestimmungen zu gewähren.
3.2 Reaktionszeit (Response Time)
Die Reaktionszeit ist die Zeitspanne zwischen der Meldung einer Störung und dem Beginn der Bearbeitung durch den Dienstleister.
Typische Reaktionszeiten nach Priorität:
| Priorität | Beschreibung | Reaktionszeit |
|---|---|---|
| P1 - Kritisch | Kompletter Systemausfall, Produktionsstop | ≤ 15 Minuten |
| P2 - Hoch | Wesentliche Funktionsbeeinträchtigung | ≤ 1 Stunde |
| P3 - Mittel | Teilweise Funktionsbeeinträchtigung | ≤ 4 Stunden |
| P4 - Niedrig | Geringe Beeinträchtigung oder Frage | ≤ 1 Arbeitstag |
Wichtig
Die Reaktionszeit unterscheidet sich von der Wiederherstellungszeit. Die Reaktionszeit gibt an, WANN mit der Bearbeitung begonnen wird, nicht wann das Problem gelöst ist.
3.3 Wiederherstellungszeit (Recovery Time / Resolution Time)
Die Wiederherstellungszeit ist die Zeitspanne von der Meldung bis zur vollständigen Behebung der Störung.
Beispiel-Definition:
- P1 - Kritisch: ≤ 4 Stunden
- P2 - Hoch: ≤ 8 Stunden
- P3 - Mittel: ≤ 24 Stunden
- P4 - Niedrig: ≤ 3 Arbeitstage
3.4 Weitere wichtige SLA-Kennzahlen
| Kennzahl | Definition | Beispiel |
|---|---|---|
| MTTR | Mean Time To Repair; durchschnittliche Wiederherstellungszeit | 2,5 Stunden |
| MTBF | Mean Time Between Failures; durchschnittliche Zeit zwischen Ausfällen | 720 Stunden |
| Servicezeit | Zeiten, in denen Services verfügbar sein müssen | Mo-Fr, 08:00-18:00 |
| Lösungsrate | Prozentsatz der Tickets, die beim ersten Kontakt gelöst wurden | 85% First Contact Resolution |
| Zufriedenheit | Kundenzufriedenheit mit Support (z.B. CSAT-Score) | ≥ 4,2/5,0 |
Verfügbarkeitsmetriken im Detail
RPO - Recovery Point Objective
Das Recovery Point Objective (RPO) gibt an, wie viel Daten maximal verloren gehen dürfen, wenn ein System ausfällt. Es wird als Zeitspanne angegeben.
Beispiele:
| RPO | Erklärung | Anwendungsbeispiel |
|---|---|---|
| 0 Sekunden | Kein Datenverlust tolerierbar | Finanztransaktionen, Echtzeit-Systeme |
| 15 Minuten | Daten der letzten 15 Minuten können verloren gehen | ERP-Systeme mit regelmäßigen Backups |
| 1 Stunde | Daten der letzten Stunde können verloren gehen | E-Mail-Systeme |
| 24 Stunden | Daten des letzten Tages können verloren gehen | Dokumentenarchiv |
RPO vs. RTO
RPO (Recovery Point Objective) bezieht sich auf die Datenmenge (Zeitspanne), die maximal verloren gehen darf. RTO (Recovery Time Objective) bezieht sich auf die Dauer, die maximal für die Wiederherstellung in Kauf genommen wird.
RTO - Recovery Time Objective
Das Recovery Time Objective (RTO) gibt an, wie lange ein System maximal ausfallen darf, ohne dass ein inakzeptabler Schaden für das Unternehmen entsteht.
Bestimmung des RTO:
flowchart TD
A[Business Impact Analyse] --> B{Kritikalität des Systems}
B -->|Hoch| C[RTO: < 4 Stunden]
B -->|Mittel| D[RTO: 4 - 24 Stunden]
B -->|Niedrig| E[RTO: 24 - 72 Stunden]
C --> F[High Availability<br/>Replikation, Failover]
D --> G[Standard Recovery<br/>Backups, Restore]
E --> H[Manual Recovery<br/>kein 24/7-Support]
style C fill:#ff6b6b
style D fill:#ffd93d
style E fill:#6bcb77
MTTR - Mean Time To Repair
Der Mean Time To Repair (MTTR) ist eine Kennzahl für die durchschnittliche Zeit, die benötigt wird, um einen Ausfall zu beheben.
Berechnung:
Beispiel:
- Ausfall 1: 2 Stunden
- Ausfall 2: 3 Stunden
- Ausfall 3: 4 Stunden
- Ausfall 4: 1 Stunde
MTTR = (2 + 3 + 4 + 1) / 4 = 2,5 Stunden
Ein niedriger MTTR ist positiv, da dies auf effektive Notfallmaßnahmen hindeutet.
MTBF - Mean Time Between Failures
Der Mean Time Between Failures (MTBF) gibt an, wie lange im Durchschnitt zwischen zwei Ausfällen eines Systems vergeht. Je höher der MTBF, desto zuverlässiger das System.
Berechnung:
Beispiel:
Ein System war im Jahr (8.760 Stunden) insgesamt 12 Mal ausgefallen.
MTBF = 8.760 / 12 = 730 Stunden
Das System durchschnittlich alle 730 Stunden (ca. 30 Tage) ausfallen.
Struktur eines professionellen SLA
Ein umfassendes SLA sollte folgende Kapitel enthalten:
1. Allgemeine Bestimmungen
- Geltungsbereich
- Vertragspartner
- Laufzeit und Kündigung
- Änderungsverfahren
2. Definition der Services
- Beschreibung der Services
- Servicezeiten
- Ausgeschlossene Zeiten (Wartungsfenster)
3. Service Levels
- Verfügbarkeitsanforderungen
- Reaktionszeiten nach Priorität
- Wiederherstellungszeiten
- Qualität der Services
4. Messung und Berichterstattung
- Messmethoden
- Berichtszeitraum
- Berichtsformat
- Bestätigungsprozess
5. Konsequenzen bei Nichteinhaltung
- Service Credits (Gutschriften)
- Vertragsstrafen
- Sonderkündigungsrechte
- Schadensersatzansprüche
6. Management- und Eskalationsverfahren
- Regelmäßige Service Reviews
- Eskalationsstufen
- Kontaktinformationen
Typische SLA-Struktur mit Prioritäten
graph TB
subgraph "SLA-Struktur"
A[Service Level Agreement]
subgraph "Prioritäten"
B[P1 - Kritisch]
C[P2 - Hoch]
D[P3 - Mittel]
E[P4 - Niedrig]
end
subgraph "Kriterien"
F[Verfügbarkeit]
G[Reaktionszeit]
H[Wiederherstellungszeit]
I[SLA-Verletzung]
end
B --> F1[99,9%]
B --> G1[≤ 15 Min]
B --> H1[≤ 4 Std]
B --> I1[30% Gutschrift/Monat]
C --> F2[99,5%]
C --> G2[≤ 1 Std]
C --> H2[≤ 8 Std]
C --> I2[15% Gutschrift/Monat]
D --> F3[99,0%]
D --> G3[≤ 4 Std]
D --> H3[≤ 24 Std]
D --> I3[5% Gutschrift/Monat]
E --> F4[95,0%]
E --> G4[≤ 1 AT]
E --> H4[≤ 3 AT]
E --> I4[Keine Gutschrift]
end
style B fill:#ff6b6b
style C fill:#ffd93d
style D fill:#6bcb77
style E fill:#4ecdc4
4. Beziehung zwischen Wartungsvertrag und SLA
Wartungsvertrag und SLA bilden zusammen die Grundlage für eine verlässliche und planbare IT-Betreuung.
| Aspekt | Wartungsvertrag | SLA |
|---|---|---|
| Fokus | Was wird geleistet? | Wie gut wird geleistet? |
| Inhalt | Leistungen, Zuständigkeiten, Kosten | Messbare Kriterien, Kennzahlen |
| Charakter | Vertragliche Rahmenbedingung | Detaillierte Qualitätsdefinition |
| Verbindlichkeit | Rechtlich bindend | Teil des Vertrags, rechtlich bindend |
| Änderung | Eher statisch | Häufige Anpassungen |
Best Practice
Das SLA sollte als Anlage zum Wartungsvertrag geführt werden. Dies ermöglicht bei Änderungen (z. B. neue Kennzahlen, andere Prioritäten) eine flexible Anpassung des SLA ohne den gesamten Wartungsvertrag neu zu verhandeln.
5. SLA-Design und Implementierung
Schritt 1: Analyse der Anforderungen
Bevor ein SLA erstellt wird, müssen die Anforderungen des Kunden analysiert werden:
Fragen zur Analyse:
- Wie kritisch ist das System für den Geschäftsbetrieb?
- Welche Verfügbarkeit wird benötigt?
- Welche Auswirkungen hat ein Ausfall auf das Business?
- Welche Budgets stehen zur Verfügung?
- Welche SLAs erhalten Wettbewerber?
- Welche Servicezeiten werden benötigt (24/7, 5 Tage/Woche)?
Schritt 2: Definition der Kennzahlen
Basierend auf der Analyse werden die Kennzahlen definiert:
Strategie:
- Realistische Kennzahlen: Keine unrealistischen Ziele, die nicht eingehalten werden können
- Messbare Kennzahlen: Alle Kennzahlen müssen objektiv messbar sein
- Klare Definitionen: Eindeutige Definitionen, was "gemessen" wird
- Abgestufte Kennzahlen: Unterschiedliche Kennzahlen für verschiedene Prioritäten
Schritt 3: Dokumentation
Alle Kennzahlen und Verfahren werden schriftlich dokumentiert:
Wichtige Aspekte:
- Definition der Messmethoden
- Festlegung der Berichtszeitpunkte (z. B. monatlich)
- Definition des Berichtsformats
- Beschreibung des Bestätigungsprozesses
Schritt 4: Monitoring und Berichterstattung
Nach Implementierung muss das SLA regelmäßig überwacht werden:
Monitoring-Systeme:
- Verfügbarkeitsüberwachung (z. B. Pingdom, Uptime Robot)
- Ticket-Systeme für Support (z. B. Jira Service Desk, Zendesk)
- Performance-Monitoring (z. B. Zabbix, Prometheus)
- Reporting-Dashboards (z. B. Grafana, Power BI)
Schritt 5: Regelmäßige Überprüfung (SLA-Reviews)
SLAs sollten regelmäßig überprüft werden (typischerweise halbjährlich):
Checkliste für SLA-Reviews:
- Werden die SLAs eingehalten?
- Sind die Kennzahlen noch angemessen?
- Gibt es neue Anforderungen oder veränderte Bedingungen?
- Muss das SLA angepasst werden?
SLA-Review-Beispiel
Ein SLA-Review zeigt, dass die Verfügbarkeit eines kritischen Systems in den letzten 6 Monaten bei 99,6% lag, während das SLA 99,9% vorsieht. Analyse: Die Nichterreichung liegt an geplanten Wartungsfenstern, die nicht als Wartungszeit deklariert wurden. Anpassung: Geplante Wartungen werden in das SLA als "ausgeschlossene Zeiten" aufgenommen. Das angepasste SLA definiert nun: "Verfügbarkeit von 99,9% außerhalb der geplanten Wartungsfenster (jeweils 2 Stunden am ersten Samstag im Monat, 02:00-04:00 Uhr)."
6. Service Credits und Konsequenzen bei SLA-Verletzung
Die meisten SLAs enthalten sogenannte "Service Credits" (Gutschriften) als Konsequenz bei Nichteinhaltung der definierten Kennzahlen.
Service Credits definieren
Service Credits sind Gutschriften auf die monatliche Wartungsgebühr, die dem Kunden gewährt werden, wenn das SLA nicht eingehalten wurde.
Typische Service Credit-Struktur:
| Verfügbarkeit (Ziel: 99,5%) | Service Credit |
|---|---|
| 99,4% - 99,5% | 5% der monatlichen Gebühr |
| 99,3% - 99,4% | 10% der monatlichen Gebühr |
| 99,0% - 99,3% | 20% der monatlichen Gebühr |
| < 99,0% | 30% der monatlichen Gebühr |
Beispiel: Service Credit-Berechnung
Situation:
- Monatliche Wartungsgebühr: 2.500 €
- Vereinbarte Verfügbarkeit: 99,5%
- Tatsächliche Verfügbarkeit: 99,2%
Berechnung:
- Verletzung um 0,3% (99,5% - 99,2% = 0,3%)
- Dies fällt in die Kategorie "99,0% - 99,3%" = 20% Service Credit
- Service Credit = 2.500 € × 20% = 500 €
Ergebnis: Der Kunde erhält eine Gutschrift von 500 € für den betreffenden Monat.
Andere Konsequenzen bei SLA-Verletzung
Neben Service Credits können weitere Konsequenzen vereinbart werden:
| Konsequenz | Beschreibung |
|---|---|
| Vertragsstrafen | Zusätzliche Strafzahlungen bei grober Verletzung |
| Sonderkündigungsrecht | Recht zur außerordentlichen Kündigung bei wiederholter Verletzung |
| Rückerstattung | Rückzahlung bereits bezahlter Gebühren |
| Verbesserte SLAs | Herabsetzung der Kennzahlen ohne Preisanpassung |
Wichtig
Service Credits sollten nicht als Einnahmequelle für Kunden betrachtet werden. Ihr Zweck ist es, Anreize für die Einhaltung der SLAs zu schaffen. Übermäßige Strafen können dazu führen, dass Anbieter unangemessene Preise verlangen oder kritische Services gar nicht mehr anbieten.
7. Praxisbeispiel: SLA-Design für ein ERP-System
Ausgangssituation
Ein mittelständisches Unternehmen mit 200 Mitarbeitern führt ein ERP-System ein. Das Unternehmen benötigt eine 24/7-Verfügbarkeit für Produktionssteuerung, kann aber keine extrem hohen Kosten für IT-Services ausgeben.
SLA-Design
| Service | Verfügbarkeit | Reaktionszeit | Wiederherstellungszeit | Wartungsgebühr/Monat |
|---|---|---|---|---|
| ERP-System | 99,5% | P1: ≤ 2 Std. P2: ≤ 4 Std. P3: ≤ 8 Std. P4: ≤ 1 AT |
P1: ≤ 6 Std. P2: ≤ 12 Std. P3: ≤ 24 Std. P4: ≤ 3 AT |
3.500 € |
| Datenbank-Server | 99,7% | P1: ≤ 1 Std. P2: ≤ 2 Std. |
P1: ≤ 4 Std. P2: ≤ 8 Std. |
Inbegriffen |
| Backup-Service | 100% (RPO: 15 Min) 99,9% (RTO: 8 Std) |
P1: ≤ 30 Min | P1: ≤ 8 Std | Inbegriffen |
| User Helpdesk | 95% (Erreichbarkeit) | P1: ≤ 15 Min P2: ≤ 30 Min |
P1: ≤ 2 Std. P2: ≤ 4 Std. |
800 € |
Wartungsfenster
Geplante Wartungen werden in definierten Wartungsfenstern durchgeführt:
- Täglich: 02:00 - 03:00 Uhr (nicht kritische Wartungen)
- Wöchentlich: Samstag, 02:00 - 06:00 Uhr (größere Updates)
- Quartalsweise: Erster Sonntag im Quartal, 02:00 - 10:00 Uhr (große Updates)
Zeiten in diesen Fenstern sind von der Verfügbarkeitsberechnung ausgenommen.
Service Credits
Bei Nichteinhaltung der Verfügbarkeit:
| Verfügbarkeit (Ziel: 99,5%) | Service Credit |
|---|---|
| 99,4% - 99,5% | 5% der monatlichen Gebühr |
| 99,3% - 99,4% | 10% der monatlichen Gebühr |
| 99,0% - 99,3% | 20% der monatlichen Gebühr |
| 98,5% - 99,0% | 30% der monatlichen Gebühr |
| < 98,5% | 50% der monatlichen Gebühr |
Überwachung und Berichterstattung
- Monitoring: Kontinuierliches Monitoring mit automatischer Benachrichtigung bei Ausfällen
- Reporting: Monatlicher Bericht mit Verfügbarkeit, Reaktionszeiten und Ticket-Statistiken
- Service Review: Halbjährliches Meeting zur Überprüfung und Anpassung der SLAs
Ergebnis nach 12 Monaten Betrieb
| Monat | Verfügbarkeit | SLA-Erfüllung | Service Credit |
|---|---|---|---|
| 1 | 99,6% | ✓ | 0 € |
| 2 | 99,4% | ✗ | 175 € (5% von 3.500 €) |
| 3 | 99,5% | ✓ | 0 € |
| 4 | 99,2% | ✗ | 700 € (20% von 3.500 €) |
| 5 | 99,7% | ✓ | 0 € |
| 6 | 99,5% | ✓ | 0 € |
| 7 | 99,3% | ✗ | 350 € (10% von 3.500 €) |
| 8 | 99,6% | ✓ | 0 € |
| 9 | 99,5% | ✓ | 0 € |
| 10 | 99,4% | ✗ | 175 € (5% von 3.500 €) |
| 11 | 99,8% | ✓ | 0 € |
| 12 | 99,5% | ✓ | 0 € |
Gesamt: 8 von 12 Monaten SLA erfüllt (66,7%); Service Credits: 1.400 €
Analyse: Die Verletzungen lagen an ungeplanten Ausfällen, die durch Hardwareschäden verursacht wurden. Anpassung: Im Jahr 2 wurde ein redundanter Server eingeführt, um die Verfügbarkeit zu erhöhen.
Schlüsselbegriffe
| Begriff | Definition |
|---|---|
| Wartungsvertrag | Vertragliche Vereinbarung über die Betreuung und Pflege von IT-Systemen |
| SLA | Service Level Agreement; Vereinbarung über messbare Servicequalität |
| Verfügbarkeit | Prozentsatz der Zeit, in der ein System funktionsfähig ist |
| Reaktionszeit | Zeit von der Meldung bis zum Beginn der Bearbeitung |
| Wiederherstellungszeit | Zeit von der Meldung bis zur vollständigen Problemlösung |
| RPO | Recovery Point Objective; Maximal tolerierbarer Datenverlust in Zeiteinheiten |
| RTO | Recovery Time Objective; Maximal tolerierbare Ausfallzeit |
| MTTR | Mean Time To Repair; Durchschnittliche Wiederherstellungszeit |
| MTBF | Mean Time Between Failures; Durchschnittliche Zeit zwischen Ausfällen |
| Service Credits | Gutschriften bei SLA-Verletzung als finanzielle Konsequenz |
| Servicezeit | Zeiten, in denen ein Service verfügbar sein muss |
| Priorisierung | Einteilung von Störungen nach Dringlichkeit (P1-P4) |
Verständnisfragen
Frage 1: SLA-Kennzahlen unterscheiden
Ein Kunde beschwert sich, dass ein kritischer Ausfall gestern Abend um 22:30 Uhr nicht rechtzeitig behoben wurde. Der Dienstleister argumentiert, dass er innerhalb der vereinbarten Zeit reagiert hat. Welche SLA-Kennzahlen sind hier relevant und wie könnten sie definiert sein?
Lösung: Hier sind zwei SLA-Kennzahlen relevant: 1. Reaktionszeit: Die Zeit von der Meldung bis zum Beginn der Bearbeitung. Wenn z. B. die Störung um 22:30 Uhr gemeldet wurde und der Dienstleister um 22:35 Uhr mit der Bearbeitung begann, beträgt die Reaktionszeit 5 Minuten. 2. Wiederherstellungszeit: Die Zeit von der Meldung bis zur vollständigen Problemlösung. Wenn das Problem z. B. erst um 02:00 Uhr gelöst war, beträgt die Wiederherstellungszeit 3,5 Stunden.
Bei einem kritischen Ausfall (Priorität P1) könnte das SLA z. B. eine Reaktionszeit von ≤ 15 Minuten und eine Wiederherstellungszeit von ≤ 4 Stunden vorsehen. Beide Zeiten müssten dann geprüft werden.
Frage 2: Verfügbarkeit berechnen
Ein System hat eine vereinbarte Verfügbarkeit von 99,9%. In einem Monat (30 Tage = 720 Stunden) war das System an zwei Tagen jeweils für 2 Stunden nicht verfügbar. Wurde das SLA eingehalten? Berechnen Sie die tatsächliche Verfügbarkeit und nennen Sie die maximal tolerierbare Ausfallzeit für 99,9%.
Lösung: Berechnung der tatsächlichen Verfügbarkeit: * Gesamtausfallzeit: 2 × 2 Stunden = 4 Stunden * Verfügbarkeit = (1 - 4/720) × 100% = (1 - 0,0056) × 100% = 99,44%
Berechnung der maximal tolerierbaren Ausfallzeit für 99,9%: * Verfügbarkeit = 99,9% bedeutet 0,1% Ausfallzeit * Maximale Ausfallzeit = 720 Stunden × 0,001 = 0,72 Stunden = 43,2 Minuten
Ergebnis: Das SLA von 99,9% wurde nicht erreicht. Die tatsächliche Verfügbarkeit von 99,44% liegt unter dem Ziel, und die Ausfallzeit von 4 Stunden überschreitet die maximal tolerierbare Zeit von 43,2 Minuten deutlich.
Frage 3: RPO vs. RTO
Ein Unternehmen legt für sein wichtiges ERP-System ein RPO von 15 Minuten und ein RTO von 4 Stunden fest. Ein Hardware-Ausfall tritt um 14:00 Uhr auf. Das letzte Backup wurde um 13:30 Uhr erstellt, und das System wird um 17:30 Uhr wiederhergestellt. Wurden die RPO- und RTO-Vorgaben eingehalten?
Lösung: RPO-Prüfung (Recovery Point Objective - maximaler Datenverlust): * Ausfallzeit: 14:00 Uhr * Letztes Backup: 13:30 Uhr * Datenverlust: 14:00 - 13:30 = 30 Minuten * Vorgabe RPO: 15 Minuten * RPO-Ergebnis: ✗ NICHT eingehalten (30 Minuten > 15 Minuten)
RTO-Prüfung (Recovery Time Objective - maximale Wiederherstellungszeit): * Ausfallzeit: 14:00 Uhr * Wiederherstellung: 17:30 Uhr * Wiederherstellungszeit: 17:30 - 14:00 = 3,5 Stunden * Vorgabe RTO: 4 Stunden * RTO-Ergebnis: ✓ Eingehalten (3,5 Stunden < 4 Stunden)
Fazit: Das RTO wurde eingehalten, aber das RPO wurde überschritten. Das Unternehmen verlor 30 Minuten Daten, obwohl nur maximal 15 Minuten toleriert waren. Maßnahmen: Einführung häufigerer Backups oder einer Replikationslösung.
Frage 4: MTTR und MTBF interpretieren
Ein Server im Jahr hatte folgende Ausfälle mit folgenden Wiederherstellungszeiten: * Ausfall 1: 4 Stunden * Ausfall 2: 6 Stunden * Ausfall 3: 2 Stunden * Ausfall 4: 3 Stunden
Der Server war im Jahr (8.760 Stunden) insgesamt 850 Stunden in Wartung. Berechnen Sie MTTR und MTBF und interpretieren Sie die Werte.
Lösung: MTTR (Mean Time To Repair - Durchschnittliche Wiederherstellungszeit): * Summe aller Wiederherstellungszeiten: 4 + 6 + 2 + 3 = 15 Stunden * Anzahl der Ausfälle: 4 * MTTR = 15 / 4 = 3,75 Stunden
MTBF (Mean Time Between Failures - Durchschnittliche Zeit zwischen Ausfällen): * Gesamtbetriebszeit: 8.760 Stunden - 850 Stunden Wartung = 7.910 Stunden * Anzahl der Ausfälle: 4 * MTBF = 7.910 / 4 = 1.977,5 Stunden ≈ 82 Tage
Interpretation: * MTTR von 3,75 Stunden: Wenn ein Ausfall auftritt, dauert es durchschnittlich 3,75 Stunden, bis der Server wieder verfügbar ist. Dies könnte optimiert werden (z. B. durch bessere Dokumentation, redundante Hardware). * MTBF von 1.977,5 Stunden (ca. 82 Tage): Im Durchschnitt fällt der Server etwa alle 82 Tage aus. Dies deutet auf eine eher mäßige Zuverlässigkeit hin. Maßnahmen zur Verbesserung könnten sein: Hardware-Erneuerung, proaktive Wartung, Monitoring.