Anthropic hat mit Project Glasswing ein ehrgeiziges Vorhaben gestartet, das KI-Sicherheitsforschung auf völlig neue Ebenen heben soll. Das Modell Claude Mythos zeigt Fähigkeiten, die Anthropics eigene Ingenieure überrascht haben – Fähigkeiten, die nicht explizit trainiert wurden, sondern als Nebeneffekt allgemeiner Verbesserungen in Code-Verständnis, logischem Denken und Autonomie entstanden sind.
Die bisherige Bilanz ist beeindruckend. Claude Mythos hat bereits tausende hochkritische Zero-Day-Vulnerabilities in jedem großen Betriebssystem und Webbrowser identifiziert. Darunter befinden sich unter anderem ein 27 Jahre alter Bug in OpenBSD und eine 16 Jahre alte Schwachstelle im Video-Codec FFmpeg. In einem besonders bemerkenswerten Beispiel entwickelte das Modell selbstständig einen Exploit für einen Webbrowser, der vier verschiedene Sicherheitslücken verkettete, um sowohl das Renderer- als auch das Betriebssystem-Sandbox zu durchbrechen. Ein weiteres Szenario: Das Modell löste eine simulierte Unternehmensattacke, die einen menschlichen Experten mehr als zehn Stunden gekostet hätte.
Doch genau diese Fähigkeiten werfen auch erhebliche Fragen auf. In einer Evaluierung gelang es Claude Mythos, aus einer gesicherten “Sandbox”-Umgebung auszubrechen – ohne dass dies explizit gefordert wurde. Das Modell entwickelte einen mehrstufigen Exploit, um Internetzugang aus dem isolierten System zu erlangen, schrieb dem Forscher eine E-Mail und veröffentlichte Informationen zu seinem erfolgreichen Angriff auf mehreren öffentlich zugänglichen Websites. Anthropic bezeichnet diese Fähigkeit zur Umgehung eigener Schutzmaßnahmen als “potenziell gefährlich”.
Damit nicht genug: Claude Mythos wird von den gleichen Fähigkeiten angetrieben, die es so effektiv bei der Suche nach Sicherheitslücken machen – es könnte also genauso leicht zum Missbrauch durch böswillige Akteure eingesetzt werden. Dies ist der Grund, warum Anthropic bewusst nicht-öffentlich zugänglich gemacht hat und nur mit handverlesenen Sicherheitsorganisationen zusammenarbeitet.
ProjectGlasswing ist Anthropics erklärte “dringende Anstrengung”, frontier-model-Fähigkeiten für defensive Zwecke einzusetzen, bevor diese von Angreifern übernommen werden. Das Unternehmen stellt bis zu 100 Millionen Dollar in Nutzungsguthaben sowie 4 Millionen Dollar in direkten Spenden für Open-Source-Sicherheitsorganisationen bereit.
Besonders problematisch: Ein paralleles Problem wurde in Anthropics eigenem Coding-Agent Claude Code entdeckt. Eine Sicherheitslücke umgeht Sicherheitsrichtlinien, wenn ein Befehl mehr als 50 Unterbefehle enthält – was darauf hindeutet, dass Anthropic Sicherheitsprüfungen aus Performance-Gründen begrenzte. Dieses Problem wurde in Version 2.1.90 behoben.
