US-Regierung lässt Anthropic den Zugang zu Fable 5 und Mythos 5 für Ausländer sperren

Zusammenfassung

Anthropic hat angekündigt, den Zugang zu seinen fortschrittlichsten KI-Modellen Claude Fable 5 und Mythos 5 abrupt für ausländische Staatsangehörige zu deaktivieren. Anlass ist nach Angaben des Unternehmens eine Anordnung der US-Regierung, die den Zugriff für Ausländer sowohl innerhalb als auch außerhalb der Vereinigten Staaten unter Berufung auf nationale Sicherheitsbedenken aussetzen ließ. Anthropic erklärte, die Weisung am Freitag um 17:21 Uhr Ostküstenzeit erhalten zu haben. Das Unternehmen geht eigenen Angaben zufolge von einem „Missverständnis“ aus und arbeitet daran, den Zugang so schnell wie möglich wiederherzustellen. Andere Modelle sind von der Exportkontroll-Anordnung laut Anthropic nicht betroffen. Im Zentrum des Konflikts steht nach Darstellung des Unternehmens die Annahme der Regierung, es gebe eine Methode, die Schutzmechanismen von Fable 5 zu umgehen. Anthropic widerspricht der Tragweite dieser Einschätzung und verweist darauf, dass die gezeigte Technik nur eine kleine Zahl bereits bekannter, geringfügiger Schwachstellen aufgedeckt habe. Diese seien vergleichsweise einfach und auch mit anderen öffentlich verfügbaren Modellen auffindbar gewesen.

Die Maßnahme trifft Anthropic nur wenige Tage nach der Einführung von Claude Fable 5 und des Schwestermodells Mythos 5. Beide basieren auf demselben Grundmodell, wobei bei Mythos 5 in einigen Bereichen, darunter Cybersicherheit, Schutzvorkehrungen gelockert wurden. Anthropic bezeichnete Mythos 5 als Modell mit den „stärksten Cybersicherheitsfähigkeiten aller Modelle weltweit“. Zugänglich bleibt es weiterhin nur für eine überprüfte Gruppe von Cyberverteidigern und Betreibern kritischer Infrastrukturen.

Anthropic betonte in seiner Stellungnahme, es habe „starke“ Leitplanken eingebaut, um Missbrauch der Modelle für Cybersicherheitsaufgaben zu verhindern. Grundlage seien Sicherheitsklassifikatoren, die möglichen Missbrauch erkennen sollen, darunter auch Versuche, Schutzmechanismen zu umgehen, und dann verhindern, dass das Hauptmodell antwortet. Der Cybersicherheits-Klassifikator sei darauf ausgelegt, schädliche Einzelanfragen zu blockieren, die sich auf die Planung eines Cyberangriffs, die Entwicklung von Exploits oder die Umgehung von Abwehrmaßnahmen beziehen.

Nach Angaben des Unternehmens liegt der Regierungsanordnung die Einschätzung zugrunde, dass eine Methode zum Umgehen von Fable 5 bekannt geworden sei. Anthropic erklärte, man habe eine Vorführung dieser konkreten Technik geprüft. Dabei seien lediglich wenige bereits bekannte kleinere Schwachstellen identifiziert worden. Diese wirkten alle relativ einfach, und andere öffentlich verfügbare Modelle könnten sie ebenfalls finden, ohne dass dafür eine Umgehung der Schutzmechanismen nötig sei.

Erst in der vergangenen Woche hatte Anthropic offengelegt, dass ein Modell der Mythos-Klasse neu veröffentlichte Softwareschwachstellen innerhalb von Stunden, in manchen Fällen sogar Minuten, in funktionierende Exploits umwandeln könne, statt wie bisher oft erst nach Wochen. Das Red Team des Unternehmens formulierte es so: „Ein einzelner Akteur kann nun die Patches eines ganzen Monats an einem einzigen Nachmittag in funktionierende Exploits umwandeln – für wenige tausend Dollar und ohne besondere Fachkenntnisse.“ Deshalb gelte das übliche Vorgehen beim Patchen mit monatlichen Veröffentlichungen, mehrwöchigen gestaffelten Rollouts und Verzögerungen zwischen Vorab- und stabilen Kanälen nicht mehr.

Für Fable 5 bedeuten die eingebauten Schutzmechanismen laut Anthropic, dass Anfragen zu Cybersicherheitsthemen stattdessen von Claude Opus 4.8 beantwortet werden, dem nächstfähigen Modell des Unternehmens. Zugleich argumentiert Anthropic, dass es bisher keine universellen Methoden gebe, um die neuesten Modelle zu umgehen. Interne und externe Red-Teaming-Übungen hätten ergeben, dass die eigenen Schutzmaßnahmen „deutlich wirksamer als die aller zuvor eingesetzten Modelle“ seien.

Eine „perfekte Widerstandsfähigkeit gegen Jailbreaks“ sei allerdings für keinen Modellanbieter erreichbar, erklärte das Unternehmen weiter. Sämtliche in der Branche genutzten Schutzmaßnahmen seien anfällig für nicht universelle Umgehungen, die nur in sehr begrenzten Kontexten funktionierten oder jeweils zusätzlichen Anpassungsaufwand erforderten. Bislang habe die Regierung nur mündliche Hinweise auf einen möglichen engen, nicht universellen Jailbreak gegeben, der im Kern darin bestehe, das Modell zu bitten, einen bestimmten Codebestand zu lesen und Softwarefehler zu beheben.

Anthropic erklärte außerdem, man habe einen Bericht geprüft, den das Unternehmen für die Grundlage der Regierungsweisung hält. Die darin gezeigte Fähigkeit sei aus Sicht von Anthropic auch bei anderen Modellen weit verbreitet, darunter OpenAI GPT-5.5, und werde täglich von Verteidigern genutzt, die Systeme absichern. Grundsätzlich unterstütze das Unternehmen staatliche Eingriffe gegen unsichere KI-Einsätze. Die Entdeckung eines „engen potenziellen Jailbreaks“ sollte aus seiner Sicht jedoch kein Grund sein, ein bereits breit eingesetztes kommerzielles Modell zurückzurufen. Das gesetzliche Verfahren müsse „transparent, fair, klar und auf technische Tatsachen gestützt“ sein.

Schon früher in diesem Jahr hatte das US-Verteidigungsministerium Anthropic als „Lieferkettenrisiko“ eingestuft, nachdem das Unternehmen versucht hatte, rote Linien für die militärische Nutzung seiner Technologie zu ziehen. Gegen diese Einstufung hat Anthropic zwei Klagen eingereicht.

US-Regierung lässt Anthropic den Zugang zu Fable 5 und Mythos 5 für Ausländer sperren

Ähnliche Artikel

Neueste Artikel