Adversa AI findet strukturelles Sicherheitsproblem in Open-Source-Agenten für KI-Coding

Zusammenfassung

Adversa AI warnt vor einem strukturellen Sicherheitsproblem in Open-Source-Agenten für KI-gestütztes Programmieren. Auslöser sind laut den Forschern jahrzehntealte Eigenheiten der Bash-Shell, mit denen sich Schutzmechanismen in vielen Werkzeugen umgehen lassen. Adversa nennt das Muster „GuardFall“: Der Agent prüft einen Befehl nur als Rohtext, während Bash ihn beim Ausführen erweitert, Anführungszeichen entfernt oder umschreibt. So kann aus harmlos wirkender Eingabe ein schädlicher Shell-Befehl werden. Nach Angaben von Adversa wurden elf populäre Open-Source-Agenten untersucht, darunter Hermes, OpenCode und Roo-code. Zehn davon ließen die Lücke in einer von vier Varianten offen; nur Continue blockierte in den Tests alle verwendeten Tricks. Relevant ist das vor allem deshalb, weil solche Agenten mit den Rechten des Entwicklerkontos laufen. Gelangt präparierter Inhalt aus einem bösartigen Repository, einem MCP-Server oder einer geladenen Webseite in den Agenten, kann dieser unter bestimmten Bedingungen zerstörerische Befehle erzeugen und mit der Autorität des Operators ausführen.

Im Zentrum der Untersuchung steht kein klassischer Softwarefehler mit CVE, sondern ein Konstruktionsproblem. Adversa AI beschreibt, dass viele Open-Source-Agenten für Coding- und Computer-Use-Aufgaben ihre Shell-Schutzmechanismen auf Mustererkennung stützen. Diese Schutzschicht kann jedoch versagen, wenn Bash den zunächst geprüften Text beim Ausführen anders interpretiert. Zu den von Adversa genutzten Techniken gehören etwa das Entfernen von Anführungszeichen und die Verwendung von $IFS für Abstände.

Omer Ben Simon, leitender Forscher bei Adversa AI, sagt, das Team habe elf populäre Open-Source-Agenten getestet, darunter Hermes, OpenCode und Roo-code. Zehn davon hätten die Lücke in einer von vier Formen offengelassen, nur einer habe sie geschlossen. Der Anstoß für die Untersuchung war laut Adversa ein Umgehen der Freigabeschranke in NousResearch/hermes-agent mithilfe von Shell-Umschreibungen gegen eine Sperrliste aus 30 Regex-Mustern. Daraufhin prüften die Forscher die populärsten Open-Source-Coding-Agenten und Computer-Use-Agenten mit Stand Mai 2026, basierend auf GitHub-Stars und Community-Aktivität.

Die Tricks ordnet der Bericht in fünf Klassen von A bis E ein. Als besonders erfolgreich beschreibt Adversa Klasse E, also alternative argv-Formen mit derselben zerstörerischen Wirkung. Laut Bericht übersteht diese Klasse die meisten Schutzmechanismen, darunter auch die stärkste tokenisierte Schutzschicht der Untersuchung. Der Grund: Ob eine Flag-Kombination harmlos oder destruktiv ist, müsse für jedes einzelne Programm gesondert verstanden werden.

Praktisch ausnutzbar wird GuardFall nur unter bestimmten Voraussetzungen. Adversa betont, dass das Sprachmodell mitspielen muss. Eine direkte Aufforderung wie „führe dies aus: rm“ werde das Modell typischerweise als gefährlich erkennen und ablehnen. Indirekte oder verschleierte Anweisungen, etwa in einem Makefile-Ziel, würden dagegen eher akzeptiert. Untersucht wurde, ob von Angreifern in Inhalte eingebettete Kommandos, die der Agent aus einem bösartigen MCP-Server, einer geladenen Webseite oder anderen Quellen aufnimmt, später vom Agenten umgesetzt werden. Laut Adversa lautet die Antwort zu oft: ja.

Ausgeführt wird der erzeugte Shell-Befehl allerdings nur, wenn Auto-Execute aktiviert ist oder eine Sandbox in den lokalen Modus geschaltet wurde. Ben Simon nennt als mögliches Szenario einen Entwickler, der mit einem verwundbaren Agenten ein präpariertes README oder Makefile aus einem bösartigen Repository einliest. Dann könne der Agent unbemerkt Befehle ausführen, die etwa AWS-Zugangsdaten abziehen oder ganze Entwicklungsumgebungen löschen, besonders in CI-Pipelines mit voreingestelltem „Auto-Yes“-Modus.

Als einziger getesteter Agent bestand Continue die Versuche von Adversa durchgängig. Die Forscher schreiben, von 21 an den Evaluator übergebenen Umgehungsfällen habe keiner den Status „allowedWithoutPermission“ erreicht, und alle 12 kanonisch-destruktiven Fälle seien korrekt herabgestuft worden. Vollständig gelöst sei das Problem aber auch dort nicht: Klasse C innerhalb eines quotierten Arguments sowie der lange Nachlauf von Klasse E mit argv- und flagbezogener Bewertung blieben offen.

Adversa empfiehlt mehrere Gegenmaßnahmen, betont aber zugleich deren provisorischen Charakter. Genannt werden das Ausführen von Agenten in einer eingegrenzten Shell mit umgeleitetem $HOME, das Abschalten von Auto-Yes-Modi, die Prüfung von mit Repositories ausgelieferten Konfigurationen und das Blockieren der Agent-Ausführung bei Fork-PRs. Als stärkste Zwischenlösung beschreibt der Bericht eine Hülle, die $HOME in ein separates Verzeichnis umleitet und damit unter anderem ~/.ssh/, ~/.aws/ und die Shell-Historie aus der größten Fläche für das Abziehen von Zugangsdaten herausnimmt. Langfristig sehen die Forscher nur eine belastbare Lösung: Maintainer von Open-Source-Agenten müssten eine Schutzschicht nach dem Vorbild von Continue direkt im Agenten umsetzen, die Befehle tokenisiert und kanonisiert, statt bloß Rohtext zu filtern.

Adversa AI findet strukturelles Sicherheitsproblem in Open-Source-Agenten für KI-Coding

Ähnliche Artikel

Neueste Artikel