Claude Mythos vs. Curl: Experten uneins über KI-Sicherheitsanalyse-Fähigkeiten

Curl-Entwickler Daniel Stenberg offenbarte in einem Blogbeitrag vom Montag, dass er die Gelegenheit erhalten hatte, das Claude-Mythos-Modell von Anthropic zu testen – jenes KI-System, das Anthropic als bahnbrechend in der automatisierten Schwachstellenerkennung gepriesen hatte. Doch die Ergebnisse fielen deutlich bescheidener aus als erwartet.

Obwohl Stenberg die Analyse nicht selbst durchführte, sondern einen dritten Anbieter mit der Prüfung beauftragte, war das Endergebnis bemerkenswert: Von fünf gemeldeten Schwachstellen in Curls 178.000 Zeilen Code waren drei bereits in der offiziellen Dokumentation bekannt, eine erwies sich als simpler Bug und nicht als Sicherheitsloch. Nur eine Schwachstelle wurde von den Curl-Entwicklern bestätigt – mit niedriger Kritikalität und geplanter Behebung im Juni.

Stenberg kritisiert diese Ergebnisse scharf. Obwohl er anerkennt, dass KI-gestützte Code-Analyse-Tools “signifikant besser” sind als traditionelle Werkzeuge, zieht er ein vernichtendes Fazit: “Der große Hype um dieses Modell war bisher primär Marketing.” Er sieht keinen Beweis dafür, dass Mythos Probleme in höherem Maße oder fortgeschrittener identifiziert als andere AI-Tools vor ihm – etwa Zeropath, AISLE oder OpenAIs Codex, die bei Curl 200-300 Probleme fanden.

Doch die Cybersicherheits-Community ist uneins. Einige Experten argumentieren, dass Curls begrenzte Schwachstellen-Funde nicht auf Mythos’ Insuffizienz hinweisen, sondern auf die hervorragende Maturity und robuste Architektur des Codes selbst. Curl wurde bereits intensiv von Menschen und anderen KI-Systemen auditiert – Schwachstellen zu finden wird zunehmend schwerer.

Zum Kontrast: Mozilla berichtete von über 270 Schwachstellen, die Mythos in Firefox identifiziert habe. Dies deutet auf hohe Effizienz hin, doch auch Mozilla betont: Alle gefundenen Vulnerabilities hätten auch von Elite-Sicherheitsforschern entdeckt werden können. Der Vorteil liegt in der Geschwindigkeit – die Lücke zwischen Erkennung und Behebung schrumpft.

Fachleute wie Erik Cabetas von Include Security berichten, dass andere Organisationen mit Mythos-Zugang ähnliche Ergebnisse wie bei Curl erhielten. Ein Analyst fasst die Skepsis zusammen: “Ich finde es schwer zu glauben, dass Mythos die einzige verbleibende Curl-Schwachstelle gefunden hat. Es ist möglich, aber äußerst unwahrscheinlich.”

Die Debatte offenbart ein grundsätzliches Problem: Wie misst man den wirklichen Mehrwert von KI-Sicherheitswerkzeugen? Ist ein niedriges Ergebnis ein Versprechen der Reife oder ein Eingeständnis der Grenzen?