KI-Halluzinationen als Sicherheitsrisiko: Wenn Künstliche Intelligenz kritische Infrastrukturen gefährdet

Künstliche Intelligenz basiert nicht auf gespeicherten Fakten, sondern auf statistischen Wahrscheinlichkeiten. Wenn ein Sprachmodell unsicher ist, hat es keinen Mechanismus, um das zu erkennen. Stattdessen generiert es die wahrscheinlichste Antwort basierend auf Mustern in den Trainingsdaten – unabhängig davon, ob sie korrekt ist. Das Tückische: Diese Ausgaben klingen oft absolut überzeugend und autoritativ. In der Cybersicherheit wird das zum Sicherheitsrisiko, wenn Mitarbeiter diese Empfehlungen ohne Verifikation umsetzen.

Drei gefährliche Manifestationsformen

KI-Halluzinationen können sich auf unterschiedliche Weise in Sicherheitsprozessen manifestieren. Die erste ist das Übersehen echter Bedrohungen. KI-Systeme zur Bedrohungserkennung basieren auf historischen Daten und bekannten Mustern. Zero-Day-Exploits oder unbekannte Angriffstechniken haben keine Entsprechung in den Trainingsdaten – und werden daher nicht erkannt. Dies ist besonders kritisch, da echte Angreifer ständig neue Methoden entwickeln.

Die zweite Form sind Falschalarme: Das System klassifiziert normale Netzwerkaktivitäten als bösartig und löst unnötige Incident-Response-Maßnahmen aus. Dies führt zu sogenannter Alert-Fatigue – Sicherheitsteams werden desensibilisiert und übersehen am Ende echte Angriffe.

Am gefährlichsten ist die dritte Form: KI generiert mit großer Überzeugung falsche Lösungsvorschläge. Ein System könnte empfehlen, sensible Dateien zu löschen, Firewall-Regeln zu deaktivieren oder kritische Konfigurationen zu ändern. Wenn Administratoren diese Empfehlungen befolgen – besonders mit privilegierten Konten – entstehen neue Sicherheitslücken.

Praktische Schutzmaßnahmen

Vollständig verhindern lässt sich das Problem nicht, doch der Schaden kann deutlich reduziert werden. Entscheidend ist zunächst das Prinzip der Verifikation: KI-generierte Ausgaben sollten niemals direkt automatisierte oder privilegierte Aktionen auslösen. Jeder Infrastruktur-Änderung, jede Zugriffsvergabe und jedes Incident-Response-Szenario muss menschliche Überprüfung vorschalten.

Zweiter Schritt: Datenqualität. Die Trainingsdaten müssen regelmäßig auditiert werden – veraltete, fehlerhafte oder verzerrte Informationen müssen entfernt werden. Mit steigendem Volumen von KI-generierten Inhalten im Internet droht sogenannter “Model Collapse”: Zukünftige Modelle werden mit Halluzinationen von heute trainiert und verstärken das Problem.

Dritten: Least-Privilege-Principle. KI-Systeme sollten nur die minimalen Berechtigungen haben, die sie für ihre Aufgabe benötigen – etwa nur Lesezugriff, aber keine Löschrechte. Selbst wenn die KI halluziniert, kann sie nicht mehr Schaden anrichten als nötig.

Viertes: Schulung. Mitarbeiter müssen lernen, präzise Prompts zu formulieren und KI-Outputs grundsätzlich zu hinterfragen. Die Kultur der kritischen Prüfung ist zentral.

Fazit für deutsche Organisationen

Für Unternehmen und Behörden in Deutschland ist dies keine theoretische Diskussion mehr. Mit zunehmender KI-Integration in Sicherheitsprozesse werden Halluzinationen zur realen Bedrohung. Das BSI sollte diese Erkenntnisse in seinen Cybersicherheitsempfehlungen verankern, und Organisationen müssen verstehen: KI ist ein Werkzeug, kein Orakel. Die menschliche Überprüfung bleibt unverzichtbar.