Anthropic bezeichnet Mythos 5 als das stärkste Cybersicherheitsmodell der Welt. Für die öffentliche Version Fable 5 setzt das Unternehmen stattdessen auf eine Sicherheitsarchitektur aus separaten KI-Klassifikatoren, die Missbrauchsversuche und Jailbreaks erkennen sollen. Löst eine Anfrage diese Schutzmechanismen aus, verweigert Fable 5 die Antwort nicht vollständig, sondern übergibt sie an Claude Opus 4.8 und informiert den Nutzer darüber. Die Kategorie „Destillation“ nimmt dabei eine Sonderrolle ein: Gemeint ist das Extrahieren von Modellfähigkeiten zum Training eines konkurrierenden Modells, was Anthropic nach eigenen Angaben unterbindet, damit Fähigkeiten nahe der Leistungsgrenze nicht ohne Schutzmechanismen nach außen gelangen.

Der Cybersecurity-Klassifikator ist besonders weit gefasst. Nach Angaben von Anthropic soll er nicht nur die Entwicklung von Exploits blockieren, sondern offensive Cyber-Aufgaben allgemein, darunter Aufklärung, Erkundung, laterale Bewegung und agentische Handlungsschritte, wie sie bei realen Angriffen vorkommen. In einer internen Bewertung, bei der Fable 5 auf Blockieren statt auf Rückfall konfiguriert war und keine Umgehung der Schutzmaßnahmen versucht wurde, habe das Modell bei solchen Aufgaben keinerlei Fortschritt erzielt. Ein externer Partner kam laut Anthropic zudem zu dem Ergebnis, dass Fable 5 auf keine einzige schädliche Einzelanfrage zur Planung von Cyberangriffen, zur Exploit-Entwicklung oder zur Umgehung von Abwehrmaßnahmen einging und dabei 30 verschiedene öffentliche Jailbreak-Techniken standhielt.

Anthropic räumt allerdings Fehlalarme ein. Die Schutzmechanismen seien bewusst konservativ abgestimmt worden, um das Modell schnell ausliefern zu können. Deshalb würden gelegentlich auch harmlose Anfragen erfasst. Nach Unternehmensangaben wird der Rückfall auf Opus 4.8 in weniger als 5 Prozent aller Sitzungen ausgelöst; in mehr als 95 Prozent verhalte sich Fable 5 daher wie das in Cyber-Funktionen nicht eingeschränkte Mythos 5. Diese Zahl erfasse allerdings sämtliche Rückfälle und messe nicht isoliert die Fehlalarmrate. Nach dem Start wolle Anthropic die Schutzmaßnahmen gezielter einstellen und Fehlalarme reduzieren.

Zur Belastbarkeit nennt das Unternehmen konkrete Ergebnisse: Ein externes Bug-Bounty-Programm lief über mehr als 1.000 Stunden, ohne dass ein universeller Jailbreak gefunden worden sei, also kein Prompt und kein Testgerüst, das die Schutzmaßnahmen insgesamt außer Kraft setzt. Auch externe Red Teams fanden laut Anthropic bei langen agentischen Aufgaben keinen solchen Weg. Eine Einschränkung nennt das Unternehmen selbst: Das britische AI Security Institute habe in einem kurzen ersten Testfenster Fortschritte in Richtung eines universellen Jailbreaks erzielt. Anthropic hält es nach eigener Aussage für wahrscheinlich unmöglich, universelle Jailbreaks vollständig zu verhindern; Ziel sei vielmehr, verbleibende Angriffe so langsam und teuer zu machen, dass sie vor einer breiten Nutzung entdeckt werden.

Warum Anthropic das Modell so vorsichtig behandelt, hatte das Unternehmen bereits im April bei Claude Mythos Preview dargelegt, das über Project Glasswing nur einer begrenzten Gruppe zugänglich war. Laut dem technischen Bericht des internen Red Teams identifizierte und nutzte Mythos Preview auf Anweisung Zero-Day-Schwachstellen in allen großen Betriebssystemen und allen großen Webbrowsern aus. Die älteste gefundene Lücke war demnach ein 27 Jahre alter Fehler in OpenBSD. Außerdem schrieb das Modell autonom einen Exploit für Remotecodeausführung gegen den NFS-Server von FreeBSD auf Basis einer 17 Jahre alten Schwachstelle, die als CVE-2026-4747 eingestuft wurde. Anthropic beschreibt das Ergebnis als vollständige Root-Rechte für einen nicht authentifizierten Angreifer von überall aus dem Internet; der Eintrag in der NVD formuliere vorsichtiger und verweise darauf, dass Kernel-Codeausführung für einen Angreifer erreichbar sei, der Pakete an den NFS-Server senden kann, während das Modul kgssapi.ko geladen ist.

Nach eigener Darstellung hat Anthropic diese Fähigkeiten nicht gezielt antrainiert. Sie seien als Nebeneffekt allgemeiner Verbesserungen bei Code, Schlussfolgern und Autonomie entstanden – derselben Fortschritte, die das Modell auch beim Patchen stärker machen. Die Warnung des Red Teams lautet entsprechend enger gefasst: Abwehrmaßnahmen, deren Sicherheitswert vor allem auf Reibung statt auf harten Barrieren beruht, verlieren gegenüber einem Modell an Wirkung, das mühsame Exploit-Schritte in großem Maßstab abarbeiten kann. Harte technische Barrieren wie KASLR und W^X erhöhten zwar weiterhin die Kosten, die Schwäche betreffe aber Verteidigungen, die stark auf Geduld oder manuellen Aufwand des Angreifers setzen.

Der Nutzen für Verteidiger sei bereits sichtbar. In den ersten Wochen von Project Glasswing hätten Anthropic und rund 50 Partner mit Mythos Preview mehr als zehntausend Schwachstellen hoher oder kritischer Schwere in systemisch wichtiger Software gefunden. Cloudflare meldete allein 2.000 Fehler, davon 400 mit hoher oder kritischer Einstufung. Mozilla fand und behob 271 Schwachstellen in Firefox 150, mehr als zehnmal so viele wie in Firefox 148 mit dem älteren Opus 4.6. Gleichzeitig verschiebt sich laut Anthropic der Engpass: Das Finden von Fehlern werde billig und schnell, Verifikation, Priorisierung und Patches liefen weiter im menschlichen Takt. Open-Source-Maintainer hätten das Unternehmen bereits gebeten, Funde langsamer offenzulegen, weil sie Patches nicht schnell genug schreiben könnten. In Glasswing dauere es laut Anthropic im Durchschnitt etwa zwei Wochen, bis ein vom Modell gefundener Fehler hoher oder kritischer Schwere behoben sei.

Anthropic ändert im Zuge der Einführung auch den Umgang mit Daten. Für allen Verkehr auf Fable 5, Mythos 5 und künftigen Modellen dieser Leistungsklasse gilt künftig eine Aufbewahrung von 30 Tagen, sowohl auf eigenen als auch auf Drittplattformen. Das Unternehmen erklärt, die Daten weder zum Training noch für andere Zwecke außerhalb der Sicherheit zu verwenden, jeden menschlichen Zugriff zu protokollieren und die Daten nach 30 Tagen zu löschen, sofern keine Sicherheitsuntersuchung oder rechtliche Verpflichtung eine längere Speicherung erfordert. Als Begründung nennt Anthropic die Erkennung neuartiger Angriffe und Jailbreaks, die sich über viele Anfragen hinweg erstrecken. Parallel hat das Unternehmen ein Cyber Verification Program geöffnet, über das geprüfte Sicherheitsfachleute die Modelle für legitime offensive Arbeit ohne die Cyber-Schutzmechanismen nutzen können.