4. Datenbasierte Optimierung in vernetzten IT-Systemen

Lernziele

Nach diesem Kapitel können Sie: - Datenquellen in vernetzten IT-Systemen identifizieren und nutzen - Betriebszustände (Normal, Vorwarn, Störung, Anomalie) aus Daten ableiten - Methoden der Mustererkennung (Korrelation, Clustering, Zeitreihenanalyse) anwenden - Monitoring- und Analysewerkzeuge auswählen und einsetzen - Optimierungsmaßnahmen auf Basis von Datenanalyse entwickeln und bewerten

Modul Übersicht

Modul 13 - Kapitel 4" Lesezeit: ~19 Min Quelle:** FS-ITB-13-A-laufender Betrieb_V0d .pdf

1. Einführung: Datenbasierte Optimierung verstehen

Unter datenbasierter Optimierung versteht man den gezielten Einsatz von Daten, um Abläufe, Prozesse oder Systeme zu verbessern. In vernetzten IT-Systemen – also in Umgebungen, in denen verschiedene Anwendungen, Geräte und Plattformen miteinander kommunizieren – werden kontinuierlich große Mengen an Daten erzeugt. Diese Daten können analysiert und genutzt werden, um fundierte Entscheidungen zu treffen und die Systemleistung, Effizienz und Sicherheit zu steigern.

Der Paradigmenwechsel: Von Vermutungen zu Daten

Im Zentrum steht der Gedanke, dass Optimierungen nicht auf Vermutungen, sondern auf objektiven, messbaren Informationen beruhen.

flowchart LR
    A[Traditionelle Optimierung] -->|Vermutungen| B[Schätzung]
    B --> C[Optimierungsmaßnahme]

    D[Data-Driven Optimization] -->|Daten| E[Analyse]
    E --> F[Erkenntnisse]
    F --> G[Optimierungsmaßnahme]

    style A fill:#ff6b6b
    style D fill:#6bcb77
    style G fill:#6bcb77
    style C fill:#ff6b6b

Vorteile der datenbasierten Optimierung:

Objektivität: Entscheidungen basieren auf Fakten, nicht auf Bauchgefühl
Transparenz: Zusammenhänge und Muster werden sichtbar
Proaktivität: Probleme werden erkannt, bevor sie kritisch werden
Effizienz: Ressourcen werden dort eingesetzt, wo sie den größten Nutzen bringen
Messbarkeit: Erfolg von Optimierungen ist direkt messbar

Praxisbeispiel

Ein Unternehmen bemerkt, dass der Server morgens zwischen 09:00 und 10:00 Uhr regelmäßig langsam ist. Die Vermutung des Administrators: "Die Mitarbeiter melden sich alle gleichzeitig an, das überlastet den Server." Die Datenanalyse zeigt jedoch, dass die CPU-Auslastung zu diesem Zeitpunkt bei 40% liegt, aber die Festplatten-I/O bei 95%. Die wahre Ursache: Ein tägliches Backup läuft zu dieser Zeit, was die I/O-Performance massiv beeinträchtigt. Die Lösung: Verschieben des Backups auf 04:00 Uhr. Result: Performance-Probleme behoben.

2. Datenquellen in vernetzten IT-Systemen

Daten werden aus unterschiedlichen Quellen gesammelt, die eine umfassende Analyse ermöglichen.

Übersicht der Datenquellen

Datenquelle	Beispiele	Typische Daten	Nutzungszweck
Server und Netzwerke	Applikations-Server, Datenbank-Server, Router, Switches	Nutzungsstatistiken, Auslastungsdaten, Verbindungszahlen	Performance-Optimierung, Kapazitätsplanung
Anwendungen und Datenbanken	ERP-Systeme, CRM-Systeme, Web-Applikationen, SQL-Datenbanken	Prozesszeiten, Fehlerraten, Transaktionsvolumina	Prozessoptimierung, Qualitätssicherung
Sensoren und Endgeräte	IoT-Geräte, Smartphones, Tablets, Produktionsanlagen	Sensordaten, Standortdaten, Nutzungszeiten	Predictive Maintenance, Location-Based Services
Monitoring-Daten	Zabbix, Prometheus, Nagios, Splunk	Statusdaten, Alarme, Metriken	Überwachung, Alarmierung, Trendanalyse
Benutzerinteraktionen	Web-Analytics, Logfiles, Support-Tickets	Klickpfade, Seitenaufrufe, Suchanfragen	UX-Optimierung, Content-Verbesserung
Geschäftsdaten	ERP, CRM, Buchhaltung	Umsätze, Auftragszahlen, Kundendaten	Business Intelligence, Analysen

Typische Datenvolumina und -arten

Big Data-Charakteristiken in vernetzten Systemen:

graph LR
    A[Big Data] --> B[Volume<br/>Volumen]
    A --> C[Velocity<br/>Geschwindigkeit]
    A --> D[Variety<br/>Vielfalt]
    A --> E[Veracity<br/>Wahrheit]

    B --> F[TB bis PB<br/>Speichermenge]
    C --> G[Realzeit-<br/>Datenströme]
    D --> H[Strukturiert,<br/>unstrukturiert,<br/>semi-strukturiert]
    E --> I[Datenqualität<br/>und -konsistenz]

    style A fill:#4ecdc4
    style B fill:#ffe66d
    style C fill:#ff6b6b
    style D fill:#95e1d3
    style E fill:#dda0dd

3. Betriebszustände aus Daten ableiten

Ein zentraler Zweck der Analyse ist die Erkennung typischer Betriebszustände – sowohl im IT- als auch im OT-Bereich. Diese Zustände bilden die Grundlage für eine sachgerechte Interpretation von Ereignissen und für die Ableitung technischer oder organisatorischer Maßnahmen.

Die vier Betriebszustände

flowchart TD
    A[Datenerfassung<br/>kontinuierlich] --> B{Klassifizierung}

    B -->|Alle Parameter<br/>im Sollbereich| C[Normalbetrieb]

    B -->|Einzelne Parameter<br/>nahe an Grenzwerten| D[Vorwarn-<br/>Toleranzbereich]

    B -->|Parameter<br/>außerhalb Grenzwert| E[Störung<br/>Ausfall]

    B -->|Unerwartete<br/>Veränderungen| F[Anomalien<br/>Ausreißer]

    style C fill:#6bcb77
    style D fill:#ffd93d
    style E fill:#ff6b6b
    style F fill:#dda0dd

3.1 Normalbetrieb

Definition: Systeme laufen erwartungsgemäß, alle Parameter befinden sich innerhalb ihrer Sollbereiche. Kleinere Schwankungen werden als unkritisch bewertet.

Merkmale:

Alle KPIs im definierten Zielbereich
Keine oder nur wenige Alarme
Stabile Performance
Vorhersehbare Muster (z. B. typische Lastspitzen zu bestimmten Zeiten)

Beispiel:

CPU-Auslastung: 30-60% (Ziel: < 70%)
Speicherauslastung: 50-70% (Ziel: < 80%)
Antwortzeit: 100-200 ms (Ziel: < 500 ms)
Verfügbarkeit: 100% (Ziel: 99,9%)

Strategie

Im Normalbetrieb liegt der Fokus auf der Optimierung und der Verhinderung von Degradation. Regelmäßige Analysen können Trends erkennen, die auf kommende Probleme hinweisen.

3.2 Vorwarn- oder Toleranzbereich

Definition: Einzelne Messgrößen oder Zustandsindikatoren bewegen sich nahe an Grenzwerten. Es besteht ein Risiko der Verschlechterung – frühzeitige Maßnahmen sind möglich.

Merkmale:

Einige Parameter grenzwertig, aber noch kritisch
Gelegentliche Warnungen im Monitoring
Performance leicht eingeschränkt
Zunehmende Tendenz negativer Entwicklung

Beispiel:

CPU-Auslastung: 65-75% (Ziel: < 70%) → Warnung ab 70%
Speicherauslastung: 75-85% (Ziel: < 80%) → Warnung ab 80%
Antwortzeit: 400-550 ms (Ziel: < 500 ms) → Warnung ab 500 ms
Verfügbarkeit: 99,5% (Ziel: 99,9%) → Warnung ab 99,8%

Handlungsempfehlung

Im Vorwarnbereich sollte proaktiv gehandelt werden, um eine Verschlechterung zu vermeiden. Maßnahmen können sein: Kapazitätsausbau, Optimierung, Lastverteilung, temporäre Deaktivierung nicht kritischer Services.

3.3 Störung oder Ausfall

Definition: Eine Komponente fällt aus oder liefert falsche Werte. Prozesse sind unterbrochen oder beeinträchtigt. Ursachen müssen ermittelt und dokumentiert werden.

Merkmale:

Kritische Parameter außerhalb der Grenzwerte
Ausfälle oder Degradationen sichtbar
Alarme und Benachrichtigungen
Auswirkungen auf den Geschäftsbetrieb

Beispiel:

CPU-Auslastung: 95-100% (Kritisch: > 90%)
Speicherauslastung: 90-100% (Kritisch: > 85%)
Antwortzeit: > 2000 ms (Kritisch: > 1000 ms)
Verfügbarkeit: 0% (Ausfall)

Akutmaßnahmen

Bei Störung oder Ausfall muss sofort gehandelt werden. Prioritäten: 1) Stabilisierung des Systems, 2) Ursachenanalyse, 3) Präventionsmaßnahmen, 4) Dokumentation und Lessons Learned.

3.4 Anomalien und Ausreißer

Definition: Plötzliche, unerwartete Veränderungen ohne offensichtliche Ursache. Sie können Vorboten von Störungen oder Angriffen sein und erfordern genauere Prüfung.

Merkmale:

Unerwartete Werte oder Muster
Abweichung von normalen Trends
Unklare Ursachen
Potenziell sicherheitskritisch (z. B. Angriffe)

Beispiel:

Unerwarteter Anstieg der Netzwerklast auf 300% des normalen Werts
Plötzliche Zunahme von fehlgeschlagenen Login-Versuchen
Ungewöhnliche Datenübertragungen zu externen IP-Adressen
Anomalien in Zeitreihen (z. B. plötzliche Einbrüche bei CPU-Auslastung)

Analyse

Anomalien sollten sofort analysiert werden. Mögliche Ursachen: Sicherheitsvorfall, Hardware-Problem, Software-Bug, ungewöhnliche Nutzung, externe Einflüsse. Im Zweifel: Eskalation an Security-Team oder Experten.

4. Methoden zur Mustererkennung und statistische Verfahren

Neben klassischen Fehlermeldungen und Monitoring-Tools können durch statistische Methoden und Mustererkennung vertiefte Aussagen über den Zustand von IT-Infrastrukturen getroffen werden. Diese Verfahren eignen sich besonders zur frühzeitigen Erkennung von Abweichungen, wiederkehrenden Problemen oder potenziellen Ausfällen.

4.1 Korrelationsanalyse

Definition: Die Korrelationsanalyse untersucht statistische Zusammenhänge zwischen zwei oder mehr Variablen.

Zweck: Erkennen von Zusammenhängen, z. B. zwischen Netzwerkauslastung und Antwortzeiten oder zwischen CPU-Temperatur und Systeminstabilität.

Mathematische Grundlage:

Der Pearson-Korrelationskoeffizient (r) misst die Stärke des linearen Zusammenhangs zwischen zwei Variablen:

\[ r = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2} \sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}} \]

Wobei: * \(r\) = Korrelationskoeffizient (-1 bis +1) * \(x_i, y_i\) = Einzelwerte der Variablen * \(\bar{x}, \bar{y}\) = Mittelwerte der Variablen

Interpretation des Korrelationskoeffizienten:

r-Wert	Stärke des Zusammenhangs	Interpretation
-1 ≤ r ≤ -0,7	Starker negativer Zusammenhang	Wenn x steigt, fällt y stark
-0,7 < r ≤ -0,3	Mittlerer negativer Zusammenhang	Wenn x steigt, fällt y moderat
-0,3 < r < 0,3	Kein oder schwacher Zusammenhang	Kein systematischer Zusammenhang
0,3 ≤ r < 0,7	Mittlerer positiver Zusammenhang	Wenn x steigt, steigt y moderat
0,7 ≤ r ≤ 1	Starker positiver Zusammenhang	Wenn x steigt, steigt y stark

Beispiel: Korrelationsanalyse

Ein IT-Berater stellt fest, dass die Serverleistung immer dann einbricht, wenn die Außentemperatur über 30 Grad steigt. Die Korrelationsanalyse zeigt einen Korrelationskoeffizienten von r = 0,82.

Interpretation: Es besteht ein starker positiver Zusammenhang zwischen Außentemperatur und Serverproblemen. Die Klimaanlage im Rechenzentrum scheint nicht mehr ausreichend dimensioniert.

Maßnahme: Überprüfung und Upgrade der Klimaanlage, Installation zusätzlicher Lüfter, Umverteilung von Last auf weniger auslastete Racks.

Anwendungsbereiche:

Performance-Analyse: Zusammenhang zwischen CPU-Auslastung und Antwortzeit
Kapazitätsplanung: Zusammenhang zwischen Benutzerzahl und Ressourcenbedarf
Fehleranalyse: Zusammenhang zwischen Systemlast und Fehlerwahrscheinlichkeit
Predictive Maintenance: Zusammenhang zwischen Laufzeit und Ausfallwahrscheinlichkeit

4.2 Clustering

Definition: Clustering ist ein Verfahren zur Gruppierung von Datenpunkten ohne vorherige Kategorienbildung (unüberwachtes Lernen).

Zweck: Erkennen typischer Nutzungsmuster oder Anomaliegruppen, z. B. auffälliges Nutzerverhalten während Lastspitzen oder nachts.

Gängige Clustering-Algorithmen:

Algorithmus	Beschreibung	Anwendungsbeispiele
k-Means	Partitioniert Daten in k Cluster durch Minimierung des quadratischen Abstands zum Clusterzentrum	Gruppierung von Benutzern nach Nutzungsmustern
DBSCAN	Dichte-basiertes Clustering; findet Cluster beliebiger Form	Erkennung von Ausreißern und Anomalien
Hierarchisches Clustering	Erstellt eine Cluster-Hierarchie	Erkennung von Ähnlichkeiten zwischen Services
OPTICS	Erweiterung von DBSCAN für variable Dichten	Erkennung von dichten und dünnen Bereichen

Beispiel: Clustering zur Anomalieerkennung

Ein Unternehmen überwacht die Anmeldeaktivitäten im Firmennetzwerk. Durch k-Means-Clustering werden drei Cluster identifiziert:

Cluster 1 (Normal): 90% der Anmeldungen zwischen 07:00 und 20:00 Uhr von Unternehmensstandorten
Cluster 2 (Remote-Nutzer): 8% der Anmeldungen zwischen 20:00 und 08:00 Uhr von VPN-Verbindungen
Cluster 3 (Anomalien): 2% der Anmeldungen von unbekannten IP-Adressen zu ungewöhnlichen Zeiten (z. B. 03:00 Uhr)

Ergebnis: Cluster 3 deutet auf potenzielle Sicherheitsvorfälle hin. Maßnahmen: Überprüfung dieser Anmeldungen, ggf. Sperrung, Eskalation an Security-Team.

4.3 Zeitreihenanalyse

Definition: Die Zeitreihenanalyse untersucht Werte über einen Zeitverlauf, um Regelmäßigkeiten zu erkennen oder Prognosen zu erstellen.

Zweck: Erkennung von Trends, Saisonalitäten oder zyklischen Mustern, Prognoseerstellung für Kapazitätsplanung.

Komponenten einer Zeitreihe:

graph LR
    A[Zeitreihe] --> B[Trend<br/>Langfristige Entwicklung]
    A --> C[Saisonalität<br/>Periodische Schwankungen]
    A --> D[Zyklische Komponente<br/>Unregelmäßige Zyklen]
    A --> E[Restkomponente<br/>Unvorhersehbare Schwankungen]

    style A fill:#4ecdc4
    style B fill:#ffe66d
    style C fill:#ff6b6b
    style D fill:#95e1d3
    style E fill:#dda0dd

Methoden der Zeitreihenanalyse:

Methode	Beschreibung	Anwendungsbeispiele
Gleitende Durchschnitte	Glättung von Schwankungen durch Mittelwertbildung	Trendanalyse der CPU-Auslastung
Exponentielle Glättung	Gewichtung aktueller Werte stärker als ältere Werte	Prognose des Datenbankwachstums
Saisonale Dekomposition	Trennung von Trend, Saisonalität und Restkomponente	Erkennung saisonaler Lastspitzen
ARIMA	AutoRegressive Integrated Moving Average; statistisches Modell	Prognose des Netzwerkverkehrs
Machine Learning	Deep Learning, LSTM, Prophet	Komplexe Prognosen und Mustererkennung

Beispiel: Zeitreihenanalyse für Kapazitätsplanung

Ein Unternehmen analysiert die Speichernutzung der Datenbank über 24 Monate:

Beobachtungen: * Trend: Die Speichernutzung steigt konstant um 100 GB pro Monat * Saisonalität: Jeden Monat zum Monatsabschluss (letzte 3 Tage) steigt die Nutzung um 30% * Zyklische Komponente: Jährlich im Oktober (Sonderaktion) steigt die Nutzung um 50%

Prognose (12 Monate): * Aktuelle Speichernutzung: 5 TB * Trend-Zuwachs: 100 GB/Monat × 12 Monate = 1,2 TB * Saisonalitäts-Zuwachs: ~30 GB × 12 Monate = 360 GB * Zyklen-Zuwachs (Oktober): 2,5 TB

Ergebnis: Voraussichtlich 5 TB + 1,2 TB + 360 GB + 2,5 TB = 9,06 TB in 12 Monaten.

Empfehlung: Aufstockung der Speicherkapazität auf mindestens 10 TB bis Ende des Jahres.

4.4 Regelbasiertes Matching

Definition: Beim regelbasierten Matching werden Daten gegen definierte Schwellenwerte oder Kombinationen geprüft.

Zweck: Schnelle, deterministische Erkennung kritischer Zustände.

Beispiel:

"Wenn CPU-Auslastung > 85% und gleichzeitig RAM-Auslastung > 90% über einen Zeitraum von mehr als 10 Minuten → Alarmstatus: Engpass."

Vorteile:

Einfach zu implementieren
Deterministisch und reproduzierbar
Schnelle Reaktion

Nachteile:

Statisch, keine Anpassung an veränderte Bedingungen
Kann nicht komplexe Muster erkennen

Kombination mit statistischen Methoden

Eine effektive Strategie ist die Kombination von regelbasierten Alarmen mit statistischen Methoden. Regelbasierte Alarme reagieren schnell auf offensichtliche Probleme, während statistische Methoden subtile Trends und Anomalien erkennen können.

5. Werkzeuge und Methoden der Datenanalyse

Die Auswahl geeigneter Tools ist ein wesentlicher Erfolgsfaktor bei der Datenanalyse.

Übersicht der Werkzeugkategorien

Werkzeugkategorie	Beispiele	Stärken	Anwendungsbereich
Datenbankabfragen	SQL	Strukturierte Abfragen großer Datenmengen	Auswertung historischer Daten, Aggregation
Skriptsprachen	Python (pandas, numpy), R	Flexible Datenverarbeitung, umfassende Bibliotheken	Zeitreihenanalyse, Clustering, Visualisierung
BI-Tools	Power BI, Tableau, Grafana	Interaktive Visualisierung, Dashboards	Management-Reporting, Echtzeit-Überwachung
Monitoring-Systeme	Prometheus, ELK Stack, Zabbix	Metrik-Sammlung, Log-Auswertung	Echtzeit-Monitoring, Alarmierung
ML-Plattformen	TensorFlow, PyTorch, Scikit-learn	Machine Learning, KI-Anwendungen	Predictive Analytics, Anomalieerkennung

Detaillierte Betrachtung ausgewählter Werkzeuge

5.1 Datenbankabfragen (SQL)

Beschreibung: Klassische relationale Datenbanken wie MySQL, PostgreSQL oder MS SQL Server ermöglichen strukturierte Abfragen großer Datenmengen.

Stärken:

Strukturierte Abfragen (SQL)
Große Datenmengen effizient verarbeitbar
Etabliert und weit verbreitet

Anwendungsbereiche:

Aggregation (z. B. Durchschnittswerte pro Stunde)
Filterung (z. B. nur Werte über Grenzwert X)
Join-Operationen (Verbindung mehrerer Tabellen)
Historische Auswertungen

SQL-Beispiel

-- Durchschnittliche CPU-Auslastung pro Stunde
SELECT
    DATE_FORMAT(timestamp, '%Y-%m-%d %H:00:00') AS stunde,
    AVG(cpu_usage) AS avg_cpu,
    MAX(cpu_usage) AS max_cpu
FROM server_metrics
WHERE timestamp >= DATE_SUB(NOW(), INTERVAL 24 HOUR)
GROUP BY DATE_FORMAT(timestamp, '%Y-%m-%d %H:00:00')
ORDER BY stunde DESC;

5.2 Skriptsprachen (Python, R)

Beschreibung: Mit Bibliotheken wie pandas, numpy oder matplotlib können Daten schnell transformiert, analysiert und visualisiert werden.

Stärken:

Hohe Flexibilität
Umfangreiche Bibliotheken für Datenanalyse
Einfache Integration mit ML-Frameworks
Open-Source und kostenlos

Anwendungsbereiche:

Automatisierte Analysen
Dashboards
KI-Anwendungen
Tiefergehende technische Auswertungen

Wichtige Python-Bibliotheken:

Bibliothek	Beschreibung	Anwendungsbeispiel
pandas	Datenmanipulation und -analyse	Zeitreihenanalyse, Data Cleaning
numpy	Numerische Berechnungen	Matrix-Operationen, statistische Funktionen
matplotlib	Datenvisualisierung	Erstellung von Grafiken und Diagrammen
scikit-learn	Machine Learning	Clustering, Klassifikation, Regression
prophet	Zeitreihenprognose (Facebook)	Kapazitätsplanung, Forecasting

Python-Beispiel

import pandas as pd
import matplotlib.pyplot as plt

# Daten einlesen
df = pd.read_csv('server_metrics.csv')
df['timestamp'] = pd.to_datetime(df['timestamp'])

# Gleitender Durchschnitt über 6 Stunden (Window Size)
df['cpu_ma'] = df['cpu_usage'].rolling(window=6).mean()

# Visualisierung
plt.figure(figsize=(12, 6))
plt.plot(df['timestamp'], df['cpu_usage'], label='CPU Auslastung')
plt.plot(df['timestamp'], df['cpu_ma'], label='Gleitender Durchschnitt (6h)', linewidth=2)
plt.axhline(y=80, color='r', linestyle='--', label='Grenzwert 80%')
plt.title('CPU-Auslastung über 24 Stunden')
plt.xlabel('Zeit')
plt.ylabel('CPU-Auslastung (%)')
plt.legend()
plt.grid(True)
plt.show()

5.3 BI-Tools (Power BI, Tableau, Grafana)

Beschreibung: Für nicht-programmierende Fachkräfte bieten BI-Werkzeuge eine niederschwellige Möglichkeit, Daten zu analysieren und visuell aufzubereiten.

Stärken:

Benutzerfreundliche Oberflächen
Interaktive Dashboards
Drag-and-Drop-Funktionalität
Echtzeit-Updates

Anwendungsbereiche:

Management-Dashboards
KPI-Überwachung
Ad-hoc-Analysen
Präsentation von Analysergebnissen

5.4 Monitoring- und Logging-Systeme

Beschreibung: Tools wie Elastic Stack (ELK), Zabbix, Prometheus/Grafana oder Splunk kombinieren Datenerfassung, Langzeitspeicherung und Visualisierung.

Stärken:

Echtzeit-Monitoring
Alarmierung und Benachrichtigung
Langzeitspeicherung
Skalierbarkeit

Anwendungsbereiche:

IT-Infrastruktur-Überwachung
Log-Analyse
Performance-Monitoring
Sicherheits-Event-Management

Tool-Auswahlkriterien

Die Auswahl des Werkzeugs sollte sich an folgenden Kriterien orientieren: 1. Anwendungsfall: Welche Art von Analyse wird durchgeführt? 2. Kompetenz: Welche Fähigkeiten hat das Team? 3. Budget: Welche Lizenzkosten sind akzeptabel? 4. Integrationsfähigkeit: Passt das Tool in die bestehende Landschaft? 5. Skalierbarkeit: Kann das Tool mit wachsenden Datenmengen umgehen?

6. Interpretation und Bewertung

Die größte Herausforderung liegt nicht in der technischen Durchführung, sondern in der fachlich fundierten Interpretation der Ergebnisse.

Grundprinzipien der Interpretation

Wichtige Regeln:

Nicht jede Auffälligkeit ist ein Problem: Einige Abweichungen können normal oder irrelevant sein
Nicht jede Korrelation ist kausal: Zusammenhang bedeutet nicht unbedingt Ursache-Wirkung
Nicht jedes Ergebnis erfordert sofortiges Handeln: Priorisierung und Kosten-Nutzen-Betrachtung sind notwendig

Arbeit mit Hypothesen

Ein bewährter Ansatz ist die Arbeit mit Hypothesen: Die Analyse dient dazu, eine Annahme zu prüfen.

Beispiel-Hypothese:

"Wir vermuten, dass die erhöhten Ausfallraten mit den Temperaturschwankungen in Halle 3 zusammenhängen."

Vorgehen:

Daten sammeln: Temperaturen in Halle 3, Ausfallraten, Zeitpunkt der Ausfälle
Korrelationsanalyse: Berechnung des Korrelationskoeffizienten zwischen Temperatur und Ausfällen
Ergebnis: r = 0,76 (starker positiver Zusammenhang)
Ursachenanalyse: Warum beeinflusst die Temperatur die Ausfallraten? (z. B. Hardware-Schwächung bei hohen Temperaturen)
Maßnahme: Verbesserung der Klimatisierung in Halle 3
Evaluation: Überprüfung der Ausfallraten nach Umsetzung der Maßnahme

Interpretation im Kontext

Analyseergebnisse sind kritisch zu hinterfragen und in den betrieblichen Kontext einzuordnen. Besonders wichtig ist dies bei komplexen Abhängigkeiten oder in sicherheitskritischen Bereichen, etwa in der Gebäudetechnik oder Energieversorgung. Eine interdisziplinäre Zusammenarbeit mit Fachexperten (z. B. Elektrotechniker, Maschinenbauer, Betriebswirtschafter) ist oft hilfreich.

7. Praxisbeispiele datenbasierter Optimierung

Beispiel 1: Rechenzentrum - Klimasteuerung

Ausgangslage: Im Serverraum treten punktuell Temperaturspitzen auf, die zu CPU-Throttling führen.

Analyse:

Überwachung der Temperaturen in allen Racks über 4 Wochen
Korrelation mit CPU-Last der VMs
Identifikation der Heißspots

Ergebnis: Die Analyse zeigt, dass diese Temperaturspitzen mit bestimmten Lastverteilungen korrelieren.

Maßnahme:

Neuverteilung der VMs auf weniger stark auslastete Racks
Installation zusätzlicher Lüfter in Heißspots
Anpassung der Lüftergeschwindigkeiten basierend auf Temperatur

Ergebnis:

Temperaturen stabilisieren sich
Die Kühlleistung steigt
Der Energieverbrauch sinkt um 8%
CPU-Throttling wird um 90% reduziert

Beispiel 2: Produktionslinie - Ausfallanalyse

Ausgangslage: Mehrere Maschinen stoppen morgens nach der Frühschicht.

Analyse:

Auswertung der SPS-Logdaten
Korrelation mit Umweltdaten (Temperatur, Luftfeuchtigkeit)
Zeitreihenanalyse der Fehlermuster

Ergebnis: Die Analyse zeigt eine fehlerhafte Initialisierung des Druckluftsystems bei niedrigen Temperaturen.

Maßnahme:

Austausch des defekten Sensors
Implementierung einer Pre-Heating-Prozedur für kalte Tage
Erweiterung der Diagnose-Routinen

Ergebnis:

Die Linie läuft wieder stabil
Ausfallrate sinkt von 15% auf < 2%
Produktionssteigerung um 3%

Beispiel 3: Netzwerkanalyse - Bandbreitenengpässe

Ausgangslage: Mitarbeitende klagen über langsame Verbindungen.

Analyse:

Monitoring mit einem Netzwerk-Monitoring-Tool
Analyse des Datenverkehrs nach Protokollen und Zielen
Zeitreihenanalyse der Bandbreitenauslastung

Ergebnis: Übermäßiger Datenverkehr durch ein automatisches Update in einem Nebenbereich zur Mittagszeit (12:00-13:00 Uhr).

Maßnahme:

Anpassung der Update-Zeiten auf nachts (03:00-04:00 Uhr)
Implementierung von Quality of Service (QoS) für kritische Anwendungen
Priorisierung von geschäftskritischem Datenverkehr

Ergebnis:

Performance verbessert sich deutlich
Mitarbeiterzufriedenheit steigt
Keine weiteren Beschwerden über langsame Verbindungen

Schlüsselbegriffe

Begriff	Definition
Datenbasierte Optimierung	Nutzung von Daten zur fundierten Verbesserung von Systemen und Prozessen
Normalbetrieb	Systeme laufen erwartungsgemäß, alle Parameter im Sollbereich
Vorwarnbereich	Parameter bewegen sich nahe an Grenzwerten, Risiko der Verschlechterung
Störung/Ausfall	Komponente fällt aus oder liefert falsche Werte
Anomalien	Unerwartete Veränderungen ohne offensichtliche Ursache
Korrelationsanalyse	Statistisches Verfahren zur Erkennung von Zusammenhängen zwischen Variablen
Clustering	Gruppierung von Datenpunkten ohne vorherige Kategorien
Zeitreihenanalyse	Untersuchung von Werten über einen Zeitverlauf
Regelbasiertes Matching	Prüfung von Daten gegen definierte Schwellenwerte
KPI	Key Performance Indicator; Leistungskennzahl zur Erfolgsmessung
Hypothese	Annahme, die durch Datenanalyse geprüft wird
Trend	Langfristige Entwicklung in einer Zeitreihe
Saisonalität	Periodische Schwankungen in einer Zeitreihe

Verständnisfragen

Frage 1: Betriebszustände klassifizieren

Ein IT-System zeigt folgende Werte: CPU-Auslastung 72%, Speicherauslastung 82%, Antwortzeit 650 ms, Verfügbarkeit 99,95%. Die definierten Ziele sind: CPU < 70%, Speicher < 80%, Antwortzeit < 500 ms, Verfügbarkeit > 99,9%. In welchen Betriebszustand würde Sie dieses System einstufen und warum?

Lösung: Das System befindet sich im Vorwarnbereich (Toleranzbereich).

Begründung: * CPU-Auslastung (72%): Ziel ist < 70%, aktueller Wert ist leicht überschritten → Warnung * Speicherauslastung (82%): Ziel ist < 80%, aktueller Wert ist überschritten → Warnung * Antwortzeit (650 ms): Ziel ist < 500 ms, aktueller Wert ist deutlich überschritten → Warnung * Verfügbarkeit (99,95%): Ziel ist > 99,9%, aktueller Wert ist unterschritten → Warnung

Alle vier Parameter grenzwertig bis kritisch überschritten, aber das System ist noch operativ (kein Ausfall). Dies ist der klassische Vorwarnbereich, in dem proaktiv gehandelt werden sollte, um eine Verschlechterung zu vermeiden.

Frage 2: Korrelationsanalyse interpretieren

Ein IT-Berater analysiert den Zusammenhang zwischen der Anzahl der gleichzeitigen Benutzer und der Antwortzeit einer Web-Applikation. Er erhält einen Korrelationskoeffizienten von r = 0,92. Wie interpretieren Sie diesen Wert und welche Handlungsempfehlung geben Sie?

Lösung: Interpretation: Ein Korrelationskoeffizient von r = 0,92 deutet auf einen sehr starken positiven Zusammenhang zwischen der Anzahl der gleichzeitigen Benutzer und der Antwortzeit hin.

Bedeutung: Je mehr Benutzer gleichzeitig auf die Web-Applikation zugreifen, desto länger wird die Antwortzeit.

Handlungsempfehlungen: 1. Kapazitätsausbau: Erhöhung der Server-Ressourcen (CPU, RAM, Netzwerk) 2. Lastverteilung: Implementierung von Load Balancing 3. Caching: Einrichtung von Caching-Mechanismen, um Anfragen zu beschleunigen 4. Performance-Tuning: Optimierung von Datenbankabfragen und Code 5. Skalierung: Nutzung von Auto-Scaling in der Cloud, um bei Bedarf automatisch Kapazität hinzuzufügen

Präventive Maßnahme: Prognose der erwarteten Benutzerzahlen und Planung der Kapazität basierend auf der Korrelation.

Frage 3: Zeitreihenanalyse für Kapazitätsplanung

Ein Unternehmen analysiert das Speicherverbrauchswachstum einer Datenbank über 12 Monate. Die Daten zeigen einen linearen Trend von 50 GB Zunahme pro Monat mit einer leichten saisonalen Erhöhung von 10 GB im Dezember (Weihnachtsgeschäft). Der aktuelle Speicherverbrauch liegt bei 2 TB. Der geplante Ausbau der Speicherkapazität beträgt 1 TB. Reicht diese Kapazität für die nächsten 12 Monate aus?

Lösung: Berechnung:

Trend-Zuwachs: 50 GB/Monat × 12 Monate = 600 GB
Saisonaler Zuwachs (Dezember): 10 GB
Gesamtzunahme: 600 GB + 10 GB = 610 GB
Aktueller Speicher: 2 TB = 2.048 GB
Erwarteter Verbrauch nach 12 Monaten: 2.048 GB + 610 GB = 2.658 GB ≈ 2,6 TB
Verfügbarer Ausbau: 1 TB = 1.024 GB
Gesamtkapazität nach Ausbau: 2 TB + 1 TB = 3 TB = 3.072 GB

Entscheidung: Ja, der geplante Ausbau von 1 TB reicht aus.

Begründung: * Erwarteter Verbrauch: ~2,6 TB * Verfügbare Kapazität: 3 TB * Reservemarge: 3 TB - 2,6 TB = 0,4 TB = 400 GB

Die Reservemarge von 400 GB (ca. 15% des erwarteten Verbrauchs) ist angemessen für unvorhergesehene Ausreißer oder einen leicht erhöhten Trend.

Frage 4: Anomalieerkennung und Handlung

Ein Unternehmen überwacht die Anmeldeaktivitäten im Firmennetzwerk. Ein Clustering-Algorithmus identifiziert eine Gruppe von 15 Anmeldeversuchen von einer IP-Adresse in Russland zwischen 02:00 Uhr und 04:00 Uhr, bei denen alle 15 Anmeldeversuche mit falschen Passwörtern endeten. Normalerweise stammen 95% der Anmeldungen aus Deutschland während der Geschäftszeiten (07:00 - 20:00 Uhr). Wie bewerten Sie diesen Cluster und welche Maßnahmen empfehlen Sie?

Lösung: Bewertung: Dieser Cluster ist eindeutig eine Anomalie und deutet auf einen potenziellen Sicherheitsvorfall hin.

Kriterien: 1. Geografische Abweichung: IP-Adresse in Russland (ungewöhnlich für dieses Unternehmen) 2. Zeitliche Abweichung: Anmeldeversuche zwischen 02:00 und 04:00 Uhr (außerhalb der Geschäftszeiten) 3. Verhaltensabnormität: Alle 15 Anmeldeversuche mit falschen Passwörtern (Brute-Force-Angriff) 4. Cluster-Größe: 15 Versuche in kurzer Zeit (Häufung)

Handlungsempfehlungen (Sofort): 1. IP-Sperre: Sofortige Sperrung der verdächtigen IP-Adresse im Firewall 2. Kontosperrung: Überprüfung der potenziell betroffenen Konten; bei Anzeichen von Kompromittierung: Sperrung und Passwort-Reset 3. Eskalation: Sofortige Eskalation an das Security-Team 4. Logging: Detaillierte Protokollierung des Vorfalls für Forensik

Handlungsempfehlungen (Langfristig): 1. Multi-Faktor-Authentifizierung (MFA): Einführung von MFA, um Brute-Force-Angriffe zu erschweren 2. Anomalieerkennung: Implementierung eines automatisierten Systems zur Erkennung ungewöhnlicher Anmeldeversuche 3. Geoblocking: Einschränkung des Zugriffs auf geografische Regionen, in denen das Unternehmen tätig ist 4. Account-Lockout-Policy: Sperrung von Konten nach 3-5 fehlgeschlagenen Anmeldeversuchen