SchwachstellenKI-SicherheitCybersicherheit

Claude Mythos vs. Curl: Experten uneins über KI-Sicherheitsanalyse-Fähigkeiten

Claude Mythos vs. Curl: Experten uneins über KI-Sicherheitsanalyse-Fähigkeiten
Zusammenfassung

Die jüngsten Tests des KI-Modells Claude Mythos von Anthropic werfen Fragen über die tatsächlichen Fähigkeiten des Systems zur Cybersecurity-Analyse auf. Bei der Überprüfung des weit verbreiteten Open-Source-Tools Curl fand Mythos nur eine schwerwiegende Sicherheitslücke – ein überraschend niedriges Ergebnis angesichts der großspurigen Ankündigungen von Anthropic vor dem Launch. Während der Curl-Entwickler Daniel Stenberg die Ergebnisse als Marketing-Übertreibung kritisiert, argumentieren Sicherheitsexperten, dass die spärlichen Funde eher die hohe Qualität und Robustheit von Curls Code widerspiegeln, als dass sie auf Mythos-Schwächen hindeuten. Allerdings zeigten Tests mit Mozilla Firefox, dass Mythos über 270 Anfälligkeit finden konnte, was dessen Potenzial unterstreicht. Für deutsche Unternehmen und Behörden ist diese Entwicklung relevant, da Curl auf Milliarden von Geräten weltweit eingesetzt wird und die Effektivität von KI-gestützten Sicherheitstools bei der Vulnerabilität-Detektion direkt ihre Cyber-Abwehrfähigkeiten beeinflusst.

Curl-Entwickler Daniel Stenberg offenbarte in einem Blogbeitrag vom Montag, dass er die Gelegenheit erhalten hatte, das Claude-Mythos-Modell von Anthropic zu testen – jenes KI-System, das Anthropic als bahnbrechend in der automatisierten Schwachstellenerkennung gepriesen hatte. Doch die Ergebnisse fielen deutlich bescheidener aus als erwartet.

Obwohl Stenberg die Analyse nicht selbst durchführte, sondern einen dritten Anbieter mit der Prüfung beauftragte, war das Endergebnis bemerkenswert: Von fünf gemeldeten Schwachstellen in Curls 178.000 Zeilen Code waren drei bereits in der offiziellen Dokumentation bekannt, eine erwies sich als simpler Bug und nicht als Sicherheitsloch. Nur eine Schwachstelle wurde von den Curl-Entwicklern bestätigt – mit niedriger Kritikalität und geplanter Behebung im Juni.

Stenberg kritisiert diese Ergebnisse scharf. Obwohl er anerkennt, dass KI-gestützte Code-Analyse-Tools “signifikant besser” sind als traditionelle Werkzeuge, zieht er ein vernichtendes Fazit: “Der große Hype um dieses Modell war bisher primär Marketing.” Er sieht keinen Beweis dafür, dass Mythos Probleme in höherem Maße oder fortgeschrittener identifiziert als andere AI-Tools vor ihm – etwa Zeropath, AISLE oder OpenAIs Codex, die bei Curl 200-300 Probleme fanden.

Doch die Cybersicherheits-Community ist uneins. Einige Experten argumentieren, dass Curls begrenzte Schwachstellen-Funde nicht auf Mythos’ Insuffizienz hinweisen, sondern auf die hervorragende Maturity und robuste Architektur des Codes selbst. Curl wurde bereits intensiv von Menschen und anderen KI-Systemen auditiert – Schwachstellen zu finden wird zunehmend schwerer.

Zum Kontrast: Mozilla berichtete von über 270 Schwachstellen, die Mythos in Firefox identifiziert habe. Dies deutet auf hohe Effizienz hin, doch auch Mozilla betont: Alle gefundenen Vulnerabilities hätten auch von Elite-Sicherheitsforschern entdeckt werden können. Der Vorteil liegt in der Geschwindigkeit – die Lücke zwischen Erkennung und Behebung schrumpft.

Fachleute wie Erik Cabetas von Include Security berichten, dass andere Organisationen mit Mythos-Zugang ähnliche Ergebnisse wie bei Curl erhielten. Ein Analyst fasst die Skepsis zusammen: “Ich finde es schwer zu glauben, dass Mythos die einzige verbleibende Curl-Schwachstelle gefunden hat. Es ist möglich, aber äußerst unwahrscheinlich.”

Die Debatte offenbart ein grundsätzliches Problem: Wie misst man den wirklichen Mehrwert von KI-Sicherheitswerkzeugen? Ist ein niedriges Ergebnis ein Versprechen der Reife oder ein Eingeständnis der Grenzen?