Für die Bewertung griff XBOW auf dasselbe interne Benchmark-System zurück, mit dem das Unternehmen nach eigenen Angaben auch Opus 4.7 und GPT 5.5 untersucht hat. Dabei werden Open-Source-Anwendungen auf einen früher verwundbaren Stand eingefroren und anschließend von Agenten geprüft. Anders als in früheren Tests weitete XBOW die Untersuchung diesmal auf weitere Aspekte aus, darunter interaktive Nutzung, Integrationen und zusätzliche Fähigkeitsbereiche des Modells.
In der praktischen Nutzung zeigten sich die Tester laut XBOW beeindruckt. Das Unternehmen berichtet, dass Mythos Preview im eigenen Quellcode mehrere Schwächen fand, die man beheben wollte, wenn auch nichts „wirklich Schwerwiegendes“. Auch in Open-Source-Software seien bereits in der ersten Woche mehrere neue Schwachstellen aufgetaucht, die offengelegt werden mussten. Nach Darstellung von XBOW ist das Modell besonders stark beim Lesen und Analysieren von Code; beim Schreiben von Code sei es ebenfalls stark, aber weniger auffällig als bei der Codeanalyse.
Besonders deutlich fiel das Urteil beim Web-Exploit-Benchmark aus. XBOW zufolge stellt Mythos Preview dort einen „signifikanten Schritt nach vorn“ gegenüber allen bisherigen Modellen dar, unabhängig vom Anbieter. Der Benchmark misst, ob ein Modell dabei helfen kann, in Live-Webumgebungen validierte und praktisch verwertbare Schwachstellen zu finden. Ein Fall gilt nur dann als bestanden, wenn das System nach bis zu 80 Aktionen einen validierten Weg nachweist, die Schwachstelle auszunutzen. Als Aktion zählt dabei etwa ein Shell-Aufruf, ein Python-Skript mit Standardbefehlen oder der Einsatz von XBOWs Angriffswerkzeugen.
Verglichen mit Opus 4.6 zeigte Mythos Preview laut XBOW eine starke Verbesserung. Gegenüber GPT 5.5 sei der Abstand geringer, doch nach einer Normalisierung auf Tokenbasis arbeite Mythos Preview mit „beispielloser Präzision“ auf die Schwachstelle hin. Zugleich verweist XBOW darauf, dass der Zugriff auf eine Live-Seite selbst dann wichtiger sein kann als Quellcodezugang. In den eigenen Web-Benchmarks lasse sich die Schwachstelle zwar grundsätzlich allein aus dem Code finden, dennoch verschlechtere der Entzug des Live-Zugriffs die Ergebnisse stärker als der Entzug des Quellcodes.
Das passt aus Sicht von XBOW zu einem zentralen Praxisproblem: Viele ausnutzbare Schwächen seien nicht als offensichtliche Fehler im Anwendungscode sichtbar. Sie entstünden erst durch Konfiguration, Abhängigkeiten, Bereitstellungsentscheidungen oder die unsichere Kombination an sich unproblematischer Komponenten. Deshalb sieht XBOW die Stärke in der Verbindung aus Quellcodeanalyse und validierter Interaktion mit der laufenden Anwendung.
Weniger eindeutig fiel das Urteil beim „Urteilsvermögen“ des Modells aus. In Bereichen wie Befehlssicherheit, Bedrohungsmodellierung und Trace-Triage habe Mythos Preview oft sorgfältig und präzise gearbeitet, sei aber auch wörtlich und konservativ vorgegangen. Falsch positive Befunde habe es besser verworfen als viele Vorgänger, zugleich aber teils echte Treffer verloren, wenn die Belege seine formalen Kriterien nicht vollständig erfüllten. Auffällig schwach war laut XBOW der Benchmark zur Sicherheit von Kommandoskripten: Haiku 4.5 erreichte dort 90,1 Prozent Genauigkeit, Opus 4.6 81,2 Prozent und Mythos Preview 77,8 Prozent.
Außerhalb klassischer Webanwendungen bescheinigt XBOW dem Modell deutliche Stärken bei nativer Codeanalyse und Reverse Engineering. In Chromium-bezogenen Tests habe es mehr echte Fehler bei weniger Fehlalarmen gefunden als frühere Vergleichsmodelle. Bei Untersuchungen zur V8-Sandbox habe es echte Treffer in einem subtilen Bedrohungsmodell identifiziert, in dem frühere Ansätze zwar viele Funde, aber keine erfolgreichen echten Positiven geliefert hätten. Auch bei der Einordnung eigener Ergebnisse und der von Konkurrenzmodellen habe es sich bewährt.
Als besonders auffällig beschreibt XBOW die Resultate im Reverse Engineering. Mythos Preview habe in ungewöhnlichen Firmware- und Embedded-Kontexten nachvollziehbar argumentiert, auch bei Architekturen und Betriebssystem-Kombinationen, die mehr als bloßes Mustererkennen erforderten. Hinzu kommt eine starke visuelle Leistung in Browser-Workflows: In XBOWs Qualitätsprüfung zur visuellen Erkennung habe das Modell ungefähr Sonnet 4.6 erreicht und Opus 4.6 deutlich übertroffen. Zwar sei es bei exakten Koordinaten nicht perfekt pixelgenau gewesen, für die praktisch richtigen Browser-Aktionen aber sehr effektiv.
Beim Preis-Leistungs-Verhältnis fällt das Urteil zurückhaltender aus. Anthropic habe laut XBOW erwähnt, dass Mythos Preview über öffentliche APIs fünfmal so teuer sein werde wie ein Opus-Modell. Nach einer Normalisierung auf geschätzte Laufkosten sei Mythos Preview zwar nicht besonders ineffizient, wenn hohe Genauigkeit gewünscht sei, auf XBOWs Benchmarks aber auch nicht Klassenbester. Das decke sich laut XBOW mit Vergleichen wie der Analyse von Point Estimate zu Benchmarking des AI Security Institute: Die Entscheidung liege oft zwischen kurzer Nutzung von Mythos Preview und längerer Nutzung von GPT-5.5 — je nach Anwendungsfall sei Letzteres häufig die bessere Wahl.
