Die Maßnahme trifft Anthropic nur wenige Tage nach der Einführung von Claude Fable 5 und des Schwestermodells Mythos 5. Beide basieren auf demselben Grundmodell, wobei bei Mythos 5 in einigen Bereichen, darunter Cybersicherheit, Schutzvorkehrungen gelockert wurden. Anthropic bezeichnete Mythos 5 als Modell mit den „stärksten Cybersicherheitsfähigkeiten aller Modelle weltweit“. Zugänglich bleibt es weiterhin nur für eine überprüfte Gruppe von Cyberverteidigern und Betreibern kritischer Infrastrukturen.
Anthropic betonte in seiner Stellungnahme, es habe „starke“ Leitplanken eingebaut, um Missbrauch der Modelle für Cybersicherheitsaufgaben zu verhindern. Grundlage seien Sicherheitsklassifikatoren, die möglichen Missbrauch erkennen sollen, darunter auch Versuche, Schutzmechanismen zu umgehen, und dann verhindern, dass das Hauptmodell antwortet. Der Cybersicherheits-Klassifikator sei darauf ausgelegt, schädliche Einzelanfragen zu blockieren, die sich auf die Planung eines Cyberangriffs, die Entwicklung von Exploits oder die Umgehung von Abwehrmaßnahmen beziehen.
Nach Angaben des Unternehmens liegt der Regierungsanordnung die Einschätzung zugrunde, dass eine Methode zum Umgehen von Fable 5 bekannt geworden sei. Anthropic erklärte, man habe eine Vorführung dieser konkreten Technik geprüft. Dabei seien lediglich wenige bereits bekannte kleinere Schwachstellen identifiziert worden. Diese wirkten alle relativ einfach, und andere öffentlich verfügbare Modelle könnten sie ebenfalls finden, ohne dass dafür eine Umgehung der Schutzmechanismen nötig sei.
Erst in der vergangenen Woche hatte Anthropic offengelegt, dass ein Modell der Mythos-Klasse neu veröffentlichte Softwareschwachstellen innerhalb von Stunden, in manchen Fällen sogar Minuten, in funktionierende Exploits umwandeln könne, statt wie bisher oft erst nach Wochen. Das Red Team des Unternehmens formulierte es so: „Ein einzelner Akteur kann nun die Patches eines ganzen Monats an einem einzigen Nachmittag in funktionierende Exploits umwandeln – für wenige tausend Dollar und ohne besondere Fachkenntnisse.“ Deshalb gelte das übliche Vorgehen beim Patchen mit monatlichen Veröffentlichungen, mehrwöchigen gestaffelten Rollouts und Verzögerungen zwischen Vorab- und stabilen Kanälen nicht mehr.
Für Fable 5 bedeuten die eingebauten Schutzmechanismen laut Anthropic, dass Anfragen zu Cybersicherheitsthemen stattdessen von Claude Opus 4.8 beantwortet werden, dem nächstfähigen Modell des Unternehmens. Zugleich argumentiert Anthropic, dass es bisher keine universellen Methoden gebe, um die neuesten Modelle zu umgehen. Interne und externe Red-Teaming-Übungen hätten ergeben, dass die eigenen Schutzmaßnahmen „deutlich wirksamer als die aller zuvor eingesetzten Modelle“ seien.
Eine „perfekte Widerstandsfähigkeit gegen Jailbreaks“ sei allerdings für keinen Modellanbieter erreichbar, erklärte das Unternehmen weiter. Sämtliche in der Branche genutzten Schutzmaßnahmen seien anfällig für nicht universelle Umgehungen, die nur in sehr begrenzten Kontexten funktionierten oder jeweils zusätzlichen Anpassungsaufwand erforderten. Bislang habe die Regierung nur mündliche Hinweise auf einen möglichen engen, nicht universellen Jailbreak gegeben, der im Kern darin bestehe, das Modell zu bitten, einen bestimmten Codebestand zu lesen und Softwarefehler zu beheben.
Anthropic erklärte außerdem, man habe einen Bericht geprüft, den das Unternehmen für die Grundlage der Regierungsweisung hält. Die darin gezeigte Fähigkeit sei aus Sicht von Anthropic auch bei anderen Modellen weit verbreitet, darunter OpenAI GPT-5.5, und werde täglich von Verteidigern genutzt, die Systeme absichern. Grundsätzlich unterstütze das Unternehmen staatliche Eingriffe gegen unsichere KI-Einsätze. Die Entdeckung eines „engen potenziellen Jailbreaks“ sollte aus seiner Sicht jedoch kein Grund sein, ein bereits breit eingesetztes kommerzielles Modell zurückzurufen. Das gesetzliche Verfahren müsse „transparent, fair, klar und auf technische Tatsachen gestützt“ sein.
Schon früher in diesem Jahr hatte das US-Verteidigungsministerium Anthropic als „Lieferkettenrisiko“ eingestuft, nachdem das Unternehmen versucht hatte, rote Linien für die militärische Nutzung seiner Technologie zu ziehen. Gegen diese Einstufung hat Anthropic zwei Klagen eingereicht.
