XBOW unterschied beim Test zwei Ausgangslagen: den Zugriff auf den reinen Quellcode und den Code im laufenden Betrieb. Mythos brilliert demnach beim Testen von „live + Quellcode", schneidet bei der Analyse des Quellcodes allein aber weniger stark ab. XBOW verweist auf eine zwei Jahrzehnte alte Beobachtung von Gary McGraw, wonach betriebliche Defekte im Zusammenspiel von Code-Fehlern und architektonischen Designschwächen entstehen. Designfehler ließen sich nicht durch bloßes Anstarren von Code finden – dafür sei ein übergeordnetes Verständnis nötig. Das schmälert laut XBOW nicht die Stärke von Mythos bei der Code-Analyse, doch die Firma betont: Jedes KI-Modell finde zwar „etwas Interessantes", dieses „Etwas" sei aber nicht gleichbedeutend mit „allem".

Bei der Bewertung von Befunden wies Mythos falsche Positivmeldungen besser zurück als seine Vorgänger, verlor aber bisweilen echte Treffer, wenn die Beweislage seine Kriterien nicht formal erfüllte. Für gute Ergebnisse brauche das Modell präzise Eingabeaufforderungen.

Klare Stärken zeigte Mythos beim Aufspüren von Schwachstellen in nativem Code und beim Reverse Engineering. In den entsprechenden Tests sei das Modell in der Lage, sowohl eigene Ergebnisse als auch Befunde konkurrierender Modelle zu sichten und einzuordnen, und es könne sich durch ungewöhnliche Kontexte bei Firmware und eingebetteten Systemen schlussfolgernd hindurcharbeiten.

Auch die visuelle Treffsicherheit prüfte XBOW – also die Fähigkeit, über eine Browser-Oberfläche mit Live-Websites zu interagieren, das richtige Bedienelement zu erkennen und an der richtigen Stelle zu klicken. Bei der Abfrage exakter Koordinaten sei das Modell nicht pixelgenau gewesen, in der Praxis aber wirksam bei der Auswahl der richtigen Browser-Aktionen.

Entscheidend ist der Kostenaspekt. XBOW beschreibt Mythos Preview als „wahren Titanen" – doch Titanen seien groß, und groß bedeute teuer. Konkrete Preise lagen zum Zeitpunkt des Berichts nicht vor; Anthropic gab an, das Modell werde fünfmal so teuer sein wie ein Opus-Modell. Auf die Frage, ob ein günstigeres Modell mit mehr Zeit nicht mehr Genauigkeit zu geringeren Kosten liefern könne, lautete XBOWs Antwort: ja.

Rechnet man die geschätzten Betriebskosten ein, sei Mythos Preview zwar nicht furchtbar ineffizient – jedenfalls dann, wenn hohe Genauigkeit gefragt ist –, in den Benchmarks von XBOW aber auch nicht das beste Modell seiner Klasse. Beim Auffinden von Web-Schwachstellen mit festem Token-Budget übertraf Mythos das Modell Opus 4.6, wurde seinerseits jedoch von GPT5.5 übertroffen.

Am Grundbefund ändert das nichts: Mythos Preview ist laut XBOW stark darin, mögliche Schwachstellen zu finden – besonders aus dem Quellcode – und zeigt beeindruckende Fähigkeiten über Web-, Nativcode- und Reverse-Engineering-Aufgaben hinweg.