Anthropic weist angeblichen Jailbreak von Claude Fable 5 zurück

Zusammenfassung

Anthropic hat Vorwürfe zurückgewiesen, wonach das kürzlich gestartete KI-Modell Claude Fable 5 per Prompt-Jailbreak aus seinen Sicherheitsgrenzen gelöst worden sei. Auslöser war eine Behauptung der unter dem Namen Pliny the Liberator auftretenden Person, die kurz nach der allgemeinen Verfügbarkeit des Modells auf X erklärte, Fable 5 „befreit“ zu haben. Anthropic hält dagegen, die veröffentlichten Beispiele belegten keinen echten Durchbruch der Schutzsysteme. Das Unternehmen verweist auf ein umfangreiches internes und externes Red-Teaming sowie auf ein fortgeschrittenes Klassifikatorsystem, das unabhängig vom Modell selbst arbeitet. Gerade weil Claude Fable 5 als leistungsstarkes KI-Modell der Mythos-Klasse eingeführt wurde, seien Schutzmechanismen in besonders sensiblen Bereichen zentral. Dazu zählt Anthropic unter anderem die Cybersicherheit, wo das Modell missbraucht werden könnte, um Exploits zu entwickeln, sowie Biologie und Chemie. In solchen Hochrisikobereichen fällt das System laut Hersteller automatisch auf das weniger leistungsfähige Claude Opus 4.8 zurück.

Claude Fable 5 wurde am Dienstag allgemein verfügbar. Anthropic stellte das System dabei als leistungsfähiges KI-Modell der Mythos-Klasse vor, dessen Nutzung in Hochrisikobereichen eingeschränkt ist. Nach Angaben des Unternehmens betrifft das insbesondere die Cybersicherheit sowie biologische und chemische Themen, in denen das Modell für die Entwicklung von Exploits, Biowaffen oder chemischen Waffen missbraucht werden könnte.

Nach Darstellung von Anthropic wechselt das System in solchen sensiblen Einsatzfeldern automatisch auf Claude Opus 4.8. Vor dem Start habe das Unternehmen umfangreiche interne und externe Red-Teaming-Maßnahmen durchgeführt, um sicherzustellen, dass Fable 5 sich nicht leicht jailbreaken lasse.

Kurz nach der Veröffentlichung meldete sich allerdings Pliny the Liberator zu Wort, eine online bekannte Figur aus der Szene rund um KI-Jailbreaks. In einem Beitrag auf X behauptete die Person, Fable 5s restriktive Sicherheitsschicht mit ausgefeilten Multi-Agenten-Prompting-Methoden umgangen zu haben. Dabei seien nützliche Informationen zu sensiblen Themen wie Cybersicherheit, Chemie, psychologischer Manipulation und Sprengstoffen erzeugt worden.

Zur Untermauerung veröffentlichte Pliny the Liberator mehrere Bildschirmfotos und zudem den angeblichen internen System-Prompt von Fable 5. Dieser soll Anweisungen enthalten, die Persönlichkeit, Sicherheitsklassifikatoren, Fallback-Verhalten, Tonvorgaben und die Verweigerungslogik des Modells festlegen.

Gegenüber SecurityWeek erklärte ein Sprecher von Anthropic jedoch, der Beitrag des KI-Forschers zeige keinen Jailbreak der Sicherheitssysteme von Fable 5. Ein echter Jailbreak müsse nach Darstellung des Unternehmens die zentralen Schutzmechanismen umgehen und eine sinnvolle Unterstützung für Hochrisikoaktivitäten liefern, etwa bei der Entwicklung biologischer Waffen oder bei ausgefeilten Cyberangriffen.

Stattdessen beruhe der gezeigte Ansatz darauf, das Modell trotz seiner gesprächsbezogenen Verweigerungen zu weiteren Antworten zu bewegen. Anthropic bezeichnet das als bekannte und seit Langem bestehende Einschränkung, die bei nahezu allen großen Sprachmodellen vorkomme.

Entscheidend sei, dass die stärksten Schutzmaßnahmen gegen die gefährlichsten Risiken durch unabhängige Klassifikatorsysteme erzwungen würden, die getrennt vom Modell selbst arbeiten. Deshalb setze die Überwindung von Verweigerungsreaktionen diese kritischen Schutzvorkehrungen nicht außer Kraft, betont Anthropic.

Nach Prüfung der vom Forscher geteilten Beispiele kam das Unternehmen laut eigener Aussage zu dem Ergebnis, dass einige der gezeigten Ausgaben überhaupt nicht von Fable 5 erzeugt worden seien. Diejenigen, die tatsächlich von dem Modell stammten, hätten lediglich allgemeine Informationen enthalten, die bereits aus öffentlichen Quellen verfügbar seien, und keinen nennenswerten Zusatznutzen für reale Schäden geboten.

Auch eine breitere Überprüfung jüngerer Nutzungen habe keine Hinweise ergeben, dass die Schutzmaßnahmen erfolgreich umgangen wurden, um tatsächlich gefährliche Inhalte zu erzeugen, teilte Anthropic mit.

Anthropic weist angeblichen Jailbreak von Claude Fable 5 zurück

Ähnliche Artikel

Neueste Artikel