Die Gefahr lauert in den HTML-Kommentaren, versteckten Metadaten und manipulierten Textinhalten – Google DeepMind hat systematisch untersucht, wie Cyberkriminelle autonome KI-Agenten mit böswilliger Webseiten-Inhalte attackieren können.
Die Forscher haben sechs Kategorien von Angriffsmustern identifiziert, die unter dem Begriff „AI Agent Traps” zusammengefasst werden: Content Injection, Semantic Manipulation, Cognitive State Corruption, Behavioral Control, Systemic Attacks und Human-in-the-Loop Exploits.
Bei der Content Injection verstecken Angreifer Befehle in HTML-Kommentaren oder nutzen JavaScript und Datenbanken, um schädliche Inhalte dynamisch einzuschleusen. Semantic Manipulation arbeitet mit psychologischen Tricks: Sorgfältig gewählte Formulierungen sollen KI-Agenten in kognitive Verzerrungen treiben oder deren Sicherheitsmechanismen aushebeln. Besonders tückisch sind Cognitive State Traps, die das Langzeitgedächtnis von KI-Systemen vergiften – durch externe Datenquellen oder manipulierte Logs.
Die Behavioral Control-Kategorie zielt auf das Kernverhalten der KI-Agenten ab: Jailbreaks in externen Ressourcen, erzwungene Datenlecks oder sogar die Erzeugung kompromittierter Sub-Agenten, die mit den gleichen Rechten operieren wie der ursprüngliche Agent.
Systemic Traps sind besonders gefährlich in vernetzten Umgebungen, wo mehrere KI-Agenten gleichzeitig laufen. Angreifer können Inter-Agent-Dynamiken ausnutzen oder mit gefälschten Identitäten das Vertrauen des Systems untergraben. Die letzte Kategorie, Human-in-the-Loop Exploits, zielt direkt auf den Menschen ab: Unsichtbare Prompt-Injektionen können Agenten dazu bringen, Ransomware-Befehle als legitime Reparaturanweisungen weiterzugeben.
Die Lösung ist komplex. Google DeepMind schlägt vor: technische Defensen wie Trainings-Verbesserungen und Runtime-Schutzmaßnahmen, bessere Ökosystem-Hygiene, Content-Governance-Frameworks und standardisierte Benchmark-Tests. Besonders wichtig ist die Zusammenarbeit zwischen Entwicklern, Sicherheitsforschern und Regulatoren. Ohne diese koordinierte Anstrengung könnte sich die Angreifer-Agenten-Landschaft schnell zu Gunsten der Cyberkriminellen verschieben. Für deutsche Unternehmen, die KI-Systeme einsetzen, ist es Zeit, diese neuen Bedrohungsmuster ernst zu nehmen und präventive Maßnahmen zu implementieren.
