Anthropic bewertet den Vorfall deutlich weniger dramatisch als die Behörden. Das Unternehmen erklärt, dieselben Anfragen funktionierten auch bei vielen schwächeren Modellen, darunter das eigene Claude Opus 4.8, OpenAIs GPT-5.5 und Chinas Kimi K2.7. Das markierte Verhalten sei routinemäßige defensive Sicherheitsarbeit und keine verborgene Superfähigkeit. Die US-Regierung und der Partner, der den Jailbreak gemeldet hatte, sahen das jedoch als schwerwiegend genug an, um Notfallauflagen zu rechtfertigen.
Um die Bedenken auszuräumen, trainierte Anthropic einen neuen Sicherheitsfilter, den das Unternehmen als Klassifikator bezeichnet. Er soll genau die im Bericht beschriebene Technik erkennen und blockieren. Nach Angaben des Unternehmens stoppt der Filter diese Methode in mehr als 99 Prozent der Versuche, Stand der Darstellung vom 30. Juni. Blockierte Anfragen werden stattdessen an das schwächere Opus 4.8 weitergeleitet; Nutzer werden darüber informiert. Als Nachteil nennt Anthropic mehr Fehlalarme bei normalem Programmieren und Debugging.
Für Mythos 5 bleibt der Zugang deutlich restriktiver. Der Zugriff wurde am 26. Juni für rund 100 US-Unternehmen und Bundesbehörden wiederhergestellt, die kritische Infrastrukturen verteidigen. Anthropic teilt mit, weiterhin mit der Regierung an einer Ausweitung des Zugangs zu arbeiten.
Handelsminister Howard Lutnick, der die Rücknahme genehmigte, erklärte, sein Ministerium habe die Modelle zwei Wochen lang gemeinsam mit Anthropic geprüft. In seinem Schreiben sagte das Unternehmen zu, Sicherheitsprobleme eigenständig zu suchen, künftige Markteinführungen abzustimmen und jede beobachtete missbräuchliche Nutzung zu melden. Berichten zufolge wurden die Verhandlungen von Mitgründer Tom Brown geführt und nicht von CEO Dario Amodei, der im Laufe des Jahres wiederholt mit der Regierung aneinandergeraten war.
Der Streit war von Beginn an umkämpft. Mehrere Berichte, darunter vom Wall Street Journal, sagten, Amazons Forschung und Bedenken von CEO Andy Jassy hätten zur ursprünglichen Anordnung beigetragen. Der frühere KI-Beauftragte David Sacks warf Anthropic vor, „das fortgesetzte Angebot des Verbrauchermodells über die Sicherheit gestellt“ zu haben. Andere werteten die Maßnahme als Überreaktion. Francesco Bailo, Forscher für KI-Governance an der University of Sydney, sagte Al Jazeera, die Rücknahme wirke wie ein Eingeständnis der Regierung, zu weit gegangen zu sein. Zudem hatten mehrere Sicherheitsverantwortliche in einem offenen Brief die Aufhebung der Auflagen gefordert.
Anthropic schlägt zugleich ein gemeinsames Verfahren vor, um die Gefährlichkeit eines Jailbreaks einzuordnen. Gemeinsam mit Amazon, Microsoft, Google und weiteren Partnern will das Unternehmen jeden Fall nach vier Kriterien bewerten. Für besonders schwere Fälle – etwa wenn ein Jailbreak Angriffe auf Stromnetze oder Banken ermöglichen würde – will Anthropic Gegenmaßnahmen sofort nach bestätigter Einstufung ausrollen und baut dafür ein Team auf, das Meldungen zu Jailbreaks rund um die Uhr überwacht. Zusätzlich hat das Unternehmen ein HackerOne-Programm eröffnet, über das Forscher neue Fable-5-Jailbreaks melden können, und der US-Regierung einen früheren Zugang zugesagt, um künftige Frontier-Modelle vor ihrer Veröffentlichung zu testen.
Dass die Sorge nicht nur theoretisch ist, begründet der Text mit früheren Tests: Im Frühjahr habe Anthropic ein älteres Mythos-Modell erprobt, das auf Anweisung Zero-Day-Schwachstellen in allen großen Betriebssystemen und Browsern gefunden und ausgenutzt habe, darunter eine 27 Jahre alte Lücke in OpenBSD. Das Red Team des Unternehmens habe frisch offengelegte Schwachstellen in weniger als einem Tag in funktionierende Exploits umgesetzt.
Der Fall verweist laut Vorlage auf ein grundlegenderes Problem. Eine Executive Order vom 2. Juni schuf einen freiwilligen Weg, Frontier-Modelle vor der Veröffentlichung überprüfen zu lassen, einschließlich eines eingestuften Maßstabs dafür, welche Modelle überhaupt als erfasst gelten. Eine Pflichtlizenz für die Veröffentlichung schloss sie jedoch aus. Fable 5 durchlief diesen Weg nicht. Stattdessen griff die Regierung zu Exportauflagen – ein Zeichen dafür, dass es in Washington für schnelle Eingriffe bei Frontier-Modellen noch keinen verbindlichen Prozess gibt, sondern nur improvisierte Verfahren.
