Mythos überzeugt bei der Schwachstellensuche – mit Schwächen im Detail

Zusammenfassung

Anthropics KI-Modell Mythos sorgt seit seiner Ankündigung Anfang April für Aufsehen – vor allem wegen der Behauptung, es könne deutlich mehr Software-Schwachstellen aufspüren als jedes andere KI-Modell. Die auf autonome offensive Sicherheit spezialisierte Firma XBOW hat Mythos Preview mit eigenen Testverfahren auf den Prüfstand gestellt, um diese und weitere Fähigkeiten zu überprüfen. Das Ergebnis bestätigt den zentralen Anspruch: Laut XBOW stellt Mythos Preview einen erheblichen Fortschritt gegenüber allen bestehenden Modellen dar, unabhängig vom Anbieter. Mythos sei tatsächlich besser darin, Schwachstellen in Code zu finden, als andere Modelle. Differenzierter fällt das Urteil jedoch in anderen Bereichen aus – etwa bei der Bewertung von Befunden, der Validierung von Exploits und beim logischen Schlussfolgern, wo die Leistung uneinheitlich bleibt. Hinzu kommt ein Kostenfaktor, den Nutzer angesichts der Leistungsfähigkeit leicht übersehen: Anthropic zufolge soll Mythos fünfmal so teuer sein wie ein Opus-Modell. XBOW prüfte deshalb, ob günstigere Modelle mit mehr Zeit am Ende mehr Genauigkeit zu geringeren Kosten liefern können.

XBOW unterschied beim Test zwei Ausgangslagen: den Zugriff auf den reinen Quellcode und den Code im laufenden Betrieb. Mythos brilliert demnach beim Testen von „live + Quellcode", schneidet bei der Analyse des Quellcodes allein aber weniger stark ab. XBOW verweist auf eine zwei Jahrzehnte alte Beobachtung von Gary McGraw, wonach betriebliche Defekte im Zusammenspiel von Code-Fehlern und architektonischen Designschwächen entstehen. Designfehler ließen sich nicht durch bloßes Anstarren von Code finden – dafür sei ein übergeordnetes Verständnis nötig. Das schmälert laut XBOW nicht die Stärke von Mythos bei der Code-Analyse, doch die Firma betont: Jedes KI-Modell finde zwar „etwas Interessantes", dieses „Etwas" sei aber nicht gleichbedeutend mit „allem".

Bei der Bewertung von Befunden wies Mythos falsche Positivmeldungen besser zurück als seine Vorgänger, verlor aber bisweilen echte Treffer, wenn die Beweislage seine Kriterien nicht formal erfüllte. Für gute Ergebnisse brauche das Modell präzise Eingabeaufforderungen.

Klare Stärken zeigte Mythos beim Aufspüren von Schwachstellen in nativem Code und beim Reverse Engineering. In den entsprechenden Tests sei das Modell in der Lage, sowohl eigene Ergebnisse als auch Befunde konkurrierender Modelle zu sichten und einzuordnen, und es könne sich durch ungewöhnliche Kontexte bei Firmware und eingebetteten Systemen schlussfolgernd hindurcharbeiten.

Auch die visuelle Treffsicherheit prüfte XBOW – also die Fähigkeit, über eine Browser-Oberfläche mit Live-Websites zu interagieren, das richtige Bedienelement zu erkennen und an der richtigen Stelle zu klicken. Bei der Abfrage exakter Koordinaten sei das Modell nicht pixelgenau gewesen, in der Praxis aber wirksam bei der Auswahl der richtigen Browser-Aktionen.

Entscheidend ist der Kostenaspekt. XBOW beschreibt Mythos Preview als „wahren Titanen" – doch Titanen seien groß, und groß bedeute teuer. Konkrete Preise lagen zum Zeitpunkt des Berichts nicht vor; Anthropic gab an, das Modell werde fünfmal so teuer sein wie ein Opus-Modell. Auf die Frage, ob ein günstigeres Modell mit mehr Zeit nicht mehr Genauigkeit zu geringeren Kosten liefern könne, lautete XBOWs Antwort: ja.

Rechnet man die geschätzten Betriebskosten ein, sei Mythos Preview zwar nicht furchtbar ineffizient – jedenfalls dann, wenn hohe Genauigkeit gefragt ist –, in den Benchmarks von XBOW aber auch nicht das beste Modell seiner Klasse. Beim Auffinden von Web-Schwachstellen mit festem Token-Budget übertraf Mythos das Modell Opus 4.6, wurde seinerseits jedoch von GPT5.5 übertroffen.

Am Grundbefund ändert das nichts: Mythos Preview ist laut XBOW stark darin, mögliche Schwachstellen zu finden – besonders aus dem Quellcode – und zeigt beeindruckende Fähigkeiten über Web-, Nativcode- und Reverse-Engineering-Aufgaben hinweg.

Mythos überzeugt bei der Schwachstellensuche – mit Schwächen im Detail

Ähnliche Artikel

Neueste Artikel