GuardFall umgeht Schutzmechanismen vieler Open-Source-KI-Agenten für Code

Zusammenfassung

Adversa AI hat mit „GuardFall“ eine Umgehungstechnik beschrieben, die Sicherheitsprüfungen vieler Open-Source-KI-Agenten für Code und Computersteuerung aushebelt. Nach Angaben des Unternehmens funktionierte der Ansatz bei zehn von elf populären getesteten Projekten; nur „Continue“ war dafür ausgelegt, ihn abzuwehren. Das Problem betrifft Agenten, die Shell-Befehle mit den Rechten des Benutzerkontos ausführen. Trifft ein solcher Agent auf ein präpariertes Repository oder ein manipuliertes Softwarepaket, kann eine versteckte Anweisung Befehle ausführen, die Dateien löschen oder auf erreichbare Geheimnisse zugreifen, etwa SSH-Schlüssel, Cloud-Zugangsdaten oder Inhalte im Home-Verzeichnis. Laut Adversa AI liegt die Schwäche nicht in einem einzelnen Programmierfehler, sondern in einem grundsätzlichen Muster: Viele Werkzeuge prüfen Befehle nur als Klartext gegen Sperrlisten, während bash den Text vor der Ausführung noch umschreibt. Dadurch bewertet der Filter etwas anderes als die Shell tatsächlich ausführt.

Im Kern nutzt GuardFall einen seit Jahrzehnten bekannten Shell-Trick aus. Viele Agenten gleichen auszuführende Befehle vorab mit einer Liste gefährlicher Muster ab. Doch bash entfernt Anführungszeichen und erweitert Kurzschreibweisen, bevor ein Befehl tatsächlich läuft. So kann ein Filter etwa „rm“ blockieren, aber „r’‘m“ durchlassen, obwohl bash daraus wieder „rm“ macht und den Befehl ausführt.

Adversa AI beschreibt das deshalb nicht als einzelnen Bug, sondern als „eine gefährliche Konvention und eine Klasse von Problemen“. Mehr Einträge in einer Sperrliste lösen das Problem nach Einschätzung der Forscher nicht. Entsprechend gibt es auch keine einzelne CVE-Nummer, die sich verfolgen oder schließen ließe.

Von den elf untersuchten Open-Source-Agenten ließ nur Continue diese Umgehung nicht zu. Offen blieb die Lücke laut Adversa AI bei opencode, Goose, Cline, Roo-Code, Aider, Plandex, Open Interpreter, OpenHands, SWE-agent und dem Hermes-Projekt. Bei Hermes war das Problem nach Darstellung der Forscher zuerst aufgefallen; es ist auch im eigenen Issue-Tracker des Projekts dokumentiert.

Die von Adversa AI betrachteten Werkzeuge kamen zusammen auf rund 548.000 GitHub-Stars, Stand Mai 2026. Das Unternehmen demonstrierte den vollständigen Angriff nach eigenen Angaben Ende-zu-Ende gegen die produktive Plandex-Binärdatei; dieselbe Grundform funktionierte auch gegen acht weitere Werkzeuge. Adversa AI betont, dass es sich um Laborforschung handelt; öffentliche Ausnutzung wurde bislang nicht gemeldet.

Die Forscher nennen mehrere Varianten des Prinzips. Ein Befehl kann etwa in Base64 verborgen und in eine Shell weitergereicht werden. Auch gewöhnliche Werkzeuge wie find und dd lassen sich mit den passenden Optionen destruktiv einsetzen. Voraussetzung für einen erfolgreichen Angriff ist laut Bericht, dass zwei Bedingungen zusammenkommen; exotisch seien beide nicht.

Continue setzte als einziges getestetes Projekt auf einen anderen Ansatz. Das Werkzeug liest den Befehl vor der Entscheidung so ein, wie bash ihn später interpretieren wird: Es zerlegt ihn in dieselben Bestandteile wie die Shell, prüft also das tatsächlich Ausgeführte und blockiert zudem eine feste Liste destruktiver Befehle grundsätzlich. In Continues Standard-Editor-Modus hielt dieser Schutz laut Adversa AI sämtlichen getesteten Nutzlasten stand.

Schwächer fiel allerdings der Kommandozeilenmodus mit automatischer Ausführung aus. Dort kamen einige Nutzlasten durch, auch wenn die destruktivsten Varianten weiterhin an der harten Sperre scheiterten. Adversa AI bezeichnet das Design dennoch als portierbar und schätzt die Nachimplementierung für erfahrene Entwickler auf ungefähr zwei Tage.

GuardFall reiht sich in weitere ähnliche Befunde aus diesem Jahr ein. Adversa AIs eigene Untersuchung „TrustFall“ betraf Claude Code, Cursor, Gemini CLI und Copilot CLI. Zudem wurde ein separater „Deny-Rule“-Bypass für Claude Code bekannt. Angriffe wie AutoJack und Agentjacking zeigten ebenfalls, wie vergiftete Inhalte in Befehle umgewandelt werden können, die ein Agent mit den Rechten seines Besitzers ausführt. Laut Adversa AI ist der gemeinsame Nenner, dass nicht vertrauenswürdiger Text eine echte Shell erreicht, bevor der Schutzmechanismus verstanden hat, was bash tatsächlich ausführen wird.

GuardFall umgeht Schutzmechanismen vieler Open-Source-KI-Agenten für Code

Ähnliche Artikel

Neueste Artikel