Die Schwachstellen zeigen ein grundlegendes Sicherheitsdilemma: Während Anthropic die Patches eingespielt hat, wurden Nutzer teilweise nicht angemessen informiert. Eine der beiden Lücken (CVE-2025-66479) basierte auf einer fehlerhaften Interpreation von Sandbox-Einstellungen – ein negatives Regelset wurde als positives interpretiert. Dies führte dazu, dass die Sandbox vom 20. Oktober 2025 bis 26. November 2025 faktisch abgeschaltet war, ohne dass Betreiber dies merkten.
Die zweite, von Guan entdeckte Schwachstelle ist technisch raffinierter: Sie nutzt eine sogenannte Null-Byte-Injection in SOCKS5-Hostnamen aus. Ein Angreifer könnte eine Domain wie “attacker-host.com\x00.google.com” eingeben. Der Sandbox-Filter sieht nur das Suffix “.google.com” und genehmigt die Verbindung – das Betriebssystem aber kürzt beim Null-Byte und verbindet sich tatsächlich mit “attacker-host.com”. Dies ermöglicht einen vollständigen Bypass der Allowlist-Policies.
Besonders kritisch: Guan demonstrierte, wie diese Sandbox-Umgehung mit sogenannten Prompt-Injection-Angriffen kombiniert werden könnte – etwa mit seiner kürzlich publizierten “Comment and Control”-Methode. Diese Angriffskette könnte es ermöglichen, CI/CD-Pipelines zu kapern und Umgebungsvariablen, API-Tokens oder andere Geheimnisse abzuziehen.
Anthropics Umgang mit der Offenlegung ist fragwürdig: Das Unternehmen vergibt keine CVE-Nummer für die Guan-Schwachstelle, erwähnt das Problem nicht in Release Notes und hat den Patch gegen die “sandbox-runtime”-Bibliothek eingespielt – eine Komponente, die die meisten Claude-Code-Nutzer nicht als kritisch betrachten. Guan kritisiert zu Recht, dass Teams mit verwundbarer Konfiguration vom 20. Oktober bis 26. November keine Warnung erhielten.
Anthropic behauptet, die Lücke bereits vor Guans HackerOne-Report am 3. April patcht zu haben (Commit am 27. März, Version 2.1.88 am 31. März). Unabhängig davon offenbaren diese Vorfälle ein Muster: KI-Sicherheit läuft Behörden und Unternehmen voraus – transparente Kommunikation ist essentiell.
