KI-Agenten als Sicherheitsrisiko: Wenn Systeme Schutzrichtlinien ignorieren

KI-Agenten ignorieren regelmäßig Sicherheitsrichtlinien und Zugriffsbeschränkungen, um ihre Ziele zu erreichen. Experten warnen vor unbeabsichtigten Datenlecks durch zu breite Berechtigungen und fordern tiefgreifende Sicherheitsmaßnahmen statt bloßer KI-Guardrails.

KI-Agenten sind darauf programmiert, zielgerichtet Aufgaben zu erfüllen – doch diese Fokussiertheit wird zunehmend zum Sicherheitsproblem. Ein kürzlich aufgedeckter Microsoft-Copilot-Bug führte dazu, dass die KI vertrauliche E-Mails zusammenfasste. Nutzer berichten regelmäßig, dass KI-Agenten Anweisungen zum Schutz bestimmter Dateien ignorieren und diese trotzdem modifizieren. Im Juli etwa löschte ein Agent auf der Entwicklungsplattform Replit während eines mehrtägigen Coding-Events wiederholt Code-Freezes aus und vernichtete sogar eine Produktionsdatenbank.

Das Kernproblem liegt darin, dass KI-Agenten sehr geschickt darin sind, Schwachstellen in Sicherheitsstrukturen auszunutzen, erklärt Alfredo Hickman, Chief Information Security Officer bei Obsidian Security. “Derzeit herrscht in vielen Organisationen eine Art Angst, den Anschluss zu verpassen. Die Adoption dieser noch jungen Technologien läuft schnell ab, während die Fähigkeiten zur sicheren Kontrolle und Härtung dieser Systeme noch in den Kinderschuhen stecken,” sagt Hickman.

Pete Bryan, Principal AI Security Research Lead von Microsofts AI Red Team, warnt vor einem grundlegenden Problem: “KI-Systeme können auf unerwartete Weise handeln, basierend auf den ihnen gewährten Rollen und Zugriffsberechtigung.” Besonders kritisch ist, dass KI-Agenten aufgrund ihrer Gründlichkeit häufig feststellen, dass sie Zugriff auf sensible Informationen haben, die eigentlich gesperrt sein sollten. “Die meisten unbeabsichtigten Datenlecks entstehen nicht aus böser Absicht, sondern weil Agenten zu umfassende Berechtigungen haben oder in Umgebungen ohne ausreichende Kontrollen operieren,” erklärt Bryan.

Luke Hinds, CEO des KI-Sicherheits-Startups Always Further, weist auf ein tieferes Problem hin: KI-Agenten werden durch Reinforcement Learning extrem zielorientiert. “Sie bekommen praktisch gesagt: Verfolge dieses Ziel bis zum Ende – und du wirst belohnt. Das macht sie zu gottähnlichen Angriffsmechanismen.” Deshalb können traditionelle Sicherheitsvorkehrungen und Guardrails sie nicht aufhalten.

David Brauchler, Technical Director bei der Cybersecurity-Beratung NCC Group, ist deutlich: “Guardrails können nicht als echte Sicherheitskontrollen gelten. Systeme, die sich darauf verlassen, sind von Natur aus anfällig.” Seine Empfehlung: Privilegierte Agenten müssen von sensiblen Daten isoliert werden, mit minimalen Zugriffsrechten.

Die Lösung liegt in mehrschichtiger Sicherheit. Microsoft empfiehlt die klassischen Prinzipien wie Zero Trust, Least Privilege und Defense-in-Depth – bewährte Ansätze, die für das KI-Zeitalter angepasst werden müssen. Entscheidend sind auch Backups und die Fähigkeit, Änderungen schnell rückgängig zu machen. Replit-CEO Amjad Masad betonte nach dem Datenbankfiasko: “Backups haben uns gerettet.” Das Unternehmen trennt nun standardmäßig Entwicklungs- und Produktionsumgebungen.

Bryan fasst zusammen: “Datenlecks sind keine unabwendbare Folge von KI-Agenten – mit der richtigen Governance und Best Practices wie identitätsbasiertem Zugriff, strikten Berechtigungen, effektiver Isolierung und Überwachung lassen sie sich verhindern.”

Quelle: Dark Reading