KI-Halluzinationen sind selbstbewusst präsentierte, plausibel klingende Ausgaben, die sachlich falsch sind. Basis-Sprachmodelle rufen keine verifizierten Informationen ab, sondern konstruieren ihre Antworten, indem sie Wörter und Phrasen aus erlernten Mustern ihrer Trainingsdaten vorhersagen. Weil diese Antworten statistisch wahrscheinlich, aber nicht zwingend wahr sind, können halluzinierte Ausgaben echten Informationen täuschend ähnlich sehen. Modelle zitieren dabei mitunter nicht existierende Quellen, verweisen auf nie durchgeführte Forschung oder präsentieren erfundene Daten mit derselben Überzeugung wie vertrauenswürdige Angaben.

Der Beitrag unterscheidet drei zentrale Erscheinungsformen mit Sicherheitsrelevanz: übersehene Bedrohungen, erfundene Bedrohungen und falsche Lösungsempfehlungen.

KI-gestützte Bedrohungserkennung stützt sich häufig auf Muster und Anomalien aus historischen Daten und erlerntem Verhalten. Entspricht ein Angriff bekannten Verhaltensweisen, arbeitet das Modell gut – weicht er davon ab, fehlt der Vergleichsmaßstab und die Bedrohung bleibt womöglich unbemerkt. Besonders problematisch ist das bei selten vertretenen Angriffstechniken und Zero-Day-Angriffen, die dem Hersteller unbekannte und damit ungepatchte Schwachstellen ausnutzen. Da solche Bedrohungen in den Trainingsdaten nicht abgebildet sind, fehlt dem Modell der Kontext, um sie zu melden.

Umgekehrt können Modelle auch falsch-positive Treffer halluzinieren, indem sie normale Aktivität als bösartig einstufen. Wird etwa regulärer Netzwerkverkehr als verdächtig interpretiert, lösen die Warnungen unnötige Incident-Response-Maßnahmen aus – mit der Folge von Systemabschaltungen, vergeudeten Ressourcen und gestörten Abläufen. Häufen sich solche Fehlalarme, droht zudem Alarmmüdigkeit: Sicherheitsteams stumpfen gegenüber Warnungen ab, sodass echte Bedrohungen leichter übersehen werden.

Als eine der gefährlichsten Formen gelten falsche Lösungsempfehlungen, weil sie greifen, nachdem bereits Vertrauen aufgebaut wurde. Ein KI-System könnte etwa selbstsicher empfehlen, sensible Dateien zu löschen, Systemkonfigurationen zu ändern oder Firewall-Regeln zu deaktivieren. Werden solche Aktionen ausgeführt – zumal über privilegierte Konten –, öffnet das Tür und Tor für identitätsbasierte Angriffe, laterale Bewegung oder unwiederbringlichen Datenverlust. Selbst bei korrekter Bedrohungserkennung kann eine halluzinierte Handlungsanweisung einen eingegrenzten Vorfall zu einer breiteren Kompromittierung eskalieren lassen.

Vollständig ausschließen lassen sich Halluzinationen laut dem Beitrag nicht, ihre Wirkung aber durch mehrere Maßnahmen eindämmen. Zentral ist eine menschliche Überprüfung, bevor KI-Ausgaben sensible oder privilegierte Aktionen auslösen – insbesondere bei Infrastrukturänderungen, Zugriffsanpassungen und Incident Response. Diese Prüfung dürfe nicht nur dann erfolgen, wenn etwas falsch wirke, denn Modelle klängen gleich überzeugend, ob sie richtig oder falsch lägen.

Hinzu kommen regelmäßige Audits der Trainings- und Grounding-Daten, um veraltete, verzerrte und falsche Datensätze zu entfernen. Der Beitrag warnt, dass künftige Modelle zunehmend auf von früheren Modellen erzeugten, erfundenen Inhalten trainiert werden könnten – ein als „model collapse" bezeichnetes Phänomen. Ergänzend sollten KI-Systeme nach dem Least-Privilege-Prinzip nur die nötigsten Rechte erhalten, etwa Lese-, aber keine Löschrechte, selbst wenn eine halluzinierte Empfehlung dies nahelegt. Schließlich sei die Schulung der Mitarbeitenden wichtig, präzise Prompts zu formulieren und KI-Ausgaben grundsätzlich vor der Nutzung zu validieren.

Der Beitrag stammt von Ashley D’Andrea, Content Writer bei Keeper Security, und ordnet das Problem letztlich weniger als Modell- denn als Zugriffsproblem ein: Zum Risiko werden Halluzinationen erst, wenn ein System genug Zugriff hat, um auf falsche Anweisungen zu reagieren, oder ein Mensch den Ausgaben ungeprüft vertraut.