Anthropic veröffentlicht Claude Mythos 5 und Fable 5 mit Sicherheitsauflagen

Zusammenfassung

Anthropic hat in dieser Woche die neuen Claude-Modelle Mythos 5 und Fable 5 vorgestellt. Nach Darstellung des Unternehmens baut Mythos 5 auf Claude Mythos Preview auf, das im April nur einer kleinen Zahl von Organisationspartnern zugänglich war, und soll besonders stark beim Auffinden und Ausnutzen von Schwachstellen sein. Anthropic erklärte sogar, Mythos könne kritische Exploits in verbreiteter, seit Jahrzehnten genutzter Software finden. Gerade wegen dieses Potenzials beschränkte das Unternehmen den Zugang über das Begleitprogramm Project Glasswing auf einen kleinen, überwachten Kreis vertrauenswürdiger Partner, darunter die US-Regierung. Fable 5 basiert laut Anthropic auf demselben Modell, wurde aber „für den allgemeinen Einsatz sicher gemacht“. Experten sehen darin dennoch keine grundlegende Wende für die Praxis. Der Tenor lautet vielmehr: kein Alarmismus, aber Vorbereitung. Bereits kurz nach der Vorstellung von Mythos hatte die Cloud Security Alliance in einem Bericht davor gewarnt, dass sich Organisationen auf KI-Modelle dieser Klasse einstellen müssen, um ihre Ausnutzbarkeit künftig zu begrenzen. Auch mit Fable 5 bleibt diese Einschätzung bestehen.

Anthropic positioniert Mythos 5 als direkte Weiterentwicklung von Claude Mythos Preview. Die Fähigkeiten seien größer, aber grundsätzlich ähnlich wie beim Vorgänger. Verfügbar bleibt das Modell nur für einen kleinen, wenn auch wachsenden Kreis vertrauenswürdiger Partner, darunter die US-Regierung. Parallel dazu bringt das Unternehmen mit Fable 5 eine Variante für den allgemeinen Einsatz heraus.

Laut Anthropic ist Fable 5 technisch dasselbe Modell wie Mythos 5, jedoch mit zusätzlichen Schutzmechanismen versehen. Bei bestimmten Anfragen, etwa zu Cybersicherheit, kann das System stattdessen Antworten des älteren Modells Claude Opus 4.8 ausgeben. Nutzer werden darüber informiert, wenn Fable 5 auf ein anderes Modell umschaltet. Anthropic zufolge wird dieser Mechanismus in weniger als 5 Prozent der Fälle ausgelöst, auch wenn es Fehlalarme gibt.

Grundlage dafür ist eine neue Reihe von Sicherheitsklassifikatoren. Diese separaten KI-Systeme sollen Missbrauch erkennen und verhindern, dass das Hauptmodell eine Antwort an den Nutzer ausgibt. Solche Klassifikatoren gab es bei Anthropic bereits zuvor, die neuen Systeme seien aber eine Erweiterung der bisherigen Arbeit mit größerer Abdeckung. Das Unternehmen begründet diesen Schritt damit, dass Modelle der Mythos-Klasse besonders gut darin seien, Software-Schwachstellen zu entdecken und auszunutzen. Dadurch könnten sie Cyberangriffe erheblich erleichtern und verbilligen. Zugleich zeigten sie starke Fähigkeiten für agentisches Hacking. Die Cybersicherheits-Klassifikatoren sollen deshalb sowohl Ausnutzung als auch offensive Cyber-Aufgaben im weiteren Sinne abdecken.

Daniel Shechter, CEO des ADR-Anbieters Miggo, hält diesen Ansatz gegenüber Dark Reading zwar für klug, aber nur für eine Bremsschwelle, nicht für eine Mauer. Die zugrundeliegende Fähigkeit sei vorhanden, andere Modelle würden sie nachbilden, und Varianten aus dem Open-Source-Bereich würden folgen. Es sei daher aus seiner Sicht die falsche Wette, ein Sicherheitsprogramm darauf aufzubauen, dass Jailbreak-Schutzmechanismen im großen Maßstab halten. Shechter interpretiert Anthropics Vorgehen als Versuch, Verteidigern ein Zeitfenster zu verschaffen, um mehr Schwachstellen zu finden und zu beheben und besser zu verstehen, wie die Abwehr gegen ein solches Modell konkret aussieht.

Anthropic erklärt zugleich, die neuen Modelle seien außergewöhnlich widerstandsfähig gegen Jailbreaks. Laut Unternehmensblog konnten interne und externe Red-Teams nach mehr als 1.000 Teststunden keine „universellen Jailbreaks“ erzeugen. Auch externe Red-Teaming-Organisationen hätten bislang bei langen agentischen Aufgaben keine universellen Jailbreaks gefunden, wobei das britische AI Security Institute in einem kurzen ersten Testfenster Fortschritte in diese Richtung erzielt habe. Vollständig verhindern lasse sich nicht jeder Jailbreak-Versuch, räumt das Unternehmen ein. Das Ziel sei vielmehr, Jailbreaks so langsam und teuer zu machen, dass Angreifer sie nicht im großen Stil einsetzen können. Adam Arellano, Field CTO bei Harness, fasst die Strategie gegenüber Dark Reading so zusammen, dass Anthropic im Kern versuche, alles so schwierig wie möglich zu machen.

Rob T. Lee, Chief AI Officer beim SANS Institute, geht noch weiter. Gegenüber Dark Reading sagte er, er arbeite unter der Annahme, dass Modelle auf Mythos-Niveau bereits in die falschen Hände gelangt seien. Ähnliche Frontier-Modelle liefen bereits in anderen Laboren, und dort würden Akteure sie nutzen. Selbst unter Glasswing sei der Zugang zwar beschränkt und überwacht gewesen, doch diese Organisationen hätten Tausende Beschäftigte. Jeder Einzelne könne dazu bewegt werden, Zugang an eine kriminelle Gruppe weiterzugeben, oder es könne bereits ein Akteur aus Nordkorea in einer solchen Organisation sitzen. Belege dafür gebe es nicht, betont Lee, aber die Erfahrung zeige immer wieder, dass vermeintlich beschränkte Fähigkeiten Gegnern früher zur Verfügung standen als angenommen.

Lee kritisiert außerdem, dass die Klassifikatoren in Fable 5 auch defensive Forschung ausbremsen. Er habe versucht, damit eine Fähigkeit für digitale Forensik aufzubauen, sei aber auf Opus 4.8 zurückgestuft worden. Damit würden nicht nur missbräuchliche Anwendungen erschwert, sondern auch neue defensive Fähigkeiten von denjenigen ferngehalten, die die nächste Generation von Werkzeugen bauen.

Schon im CSA-Bericht vom April hatten die Autoren empfohlen, sich auf einen möglichen „Mythos-Exploit-Sturm“ vorzubereiten. Verteidiger sollten Risikobewertungen anpassen und Ressourcen in Sicherheitsprogrammen auf mehr Angriffe, ein höheres Patch-Aufkommen und kürzere Patch-Zeitfenster ausrichten. Genannt werden dabei Grundlagen wie Segmentierung, Ausgangsfilterung, Multifaktor-Authentifizierung und Defense in Depth. Ebenso fordern die Autoren ein robustes Abhängigkeitsmanagement, automatisierte Sicherheitsprüfungen durch LLMs und den Einsatz von KI-Agenten in der Cyber-Belegschaft, um mit Angreifern Schritt zu halten.

Rich Mogull, Chefanalyst bei der Cloud Security Alliance, sagt deshalb, für durchschnittliche Praktiker habe sich die Sicherheitslage durch Mythos im Kern nicht verändert. Genau das habe man erwartet, und genau darauf basiere die eigene Handreichung. Seine Botschaft an Dark Reading: jetzt anfangen und an die Arbeit gehen — die Veröffentlichung von Fable habe die Nutzer jedoch nicht unsicherer gemacht als am Tag zuvor.

Anthropic veröffentlicht Claude Mythos 5 und Fable 5 mit Sicherheitsauflagen

Ähnliche Artikel

Neueste Artikel