Herbert-Voss zieht die Parallele zum Fuzzing der 2000er-Jahre bewusst. Damals sollte die Technik alles verändern: Eine Maschine könne automatisch und in großem Maßstab Abstürze finden und so eine nie dagewesene Welle von Zero-Days auslösen. Eingetreten sei das nur in kleinem Umfang – stattdessen entstand ein neues Problem, nämlich eine Unmenge möglicher Bugs. Jemand musste die Fehler weiterhin durchsehen, die ausnutzbaren Abstürze identifizieren und deren Ursache klären. In gewisser Weise, so Herbert-Voss, machte Fuzzing Schwachstellenforscher dadurch sogar wertvoller.
Sprachmodelle funktionierten ähnlich: Sie könnten automatisch riesige Datensätze erzeugen, bestätigen, dass etwas fehlerhaft ist, und Wege zur Ausnutzung aufzeigen. Doch zu wissen, dass etwas falsch ist, und zu wissen, was zu tun ist, seien zwei verschiedene Probleme. “Die Leistungsdecke steigt schnell, der Leistungsboden hält nicht Schritt”, sagt er. Teams könnten mehr mögliche Bugs erzeugen denn je, doch zu prüfen, welche davon echte Sicherheitsrelevanz haben, erfordere weiterhin einen Menschen.
Dass die autonome Leistung bei offensiven Aufgaben rasant zulegt, bestreitet Herbert-Voss nicht. Er verweist auf die sogenannte Skalierungshypothese: mehr Trainingsdaten, mehr Rechenleistung und mehr Parameter führten zu besserer Leistung – zuletzt sogar überlinear. Ein doppelt so großes Modell, doppelt so lange auf doppelt so vielen Daten trainiert, könne viermal leistungsfähiger sein. Zwischen 2023 und 2026 sei die durchschnittliche Zeit von der Entdeckung eines Bugs bis zu seiner Ausnutzung von fünf Monaten auf zehn Stunden gefallen. In professionellen Capture-the-Flag-Wettbewerben würden Aufgaben, die Teams früher Stunden kosteten, inzwischen binnen Minuten nach Freischaltung gelöst.
Die Fortschritte fallen jedoch je nach Schwachstellenklasse unterschiedlich aus. Bei der Suche und Ausnutzung einfacher, oberflächlicher Bugs niedriger Schwere habe Mythos “massive Zugewinne” erzielt, bei mittelschweren Fehlern moderate, bei den schwersten nur geringe. Auswertungen von Anthropics Mythos durch das UK AI Security Institute zeigten, dass Modelle in kontrollierten Umgebungen lange offensive Abläufe autonom durchführen könnten – auf realen Zielen seien sie aber nicht verlässlich konsistent. Ein jüngeres Experiment mit Mythos lief laut Herbert-Voss darauf hinaus, dass hinter einem weit größeren Pool automatisierter Datenpunkte am Ende 198 von Menschen geprüfte Befunde standen.
Für Organisationen bleibe die Lage dennoch fordernd: Verteidiger würden “von Millionen Affen mit Schreibmaschinen getroffen”, von denen einige sehr gute Exploits schreiben, andere nicht – reagieren müssten sie jedes Mal, während Angreifer nur alle paar Monate Glück haben müssten.
Als vier technische Fortschritte, auf die Verteidiger setzen sollten, nennt Herbert-Voss verbessertes Schlussfolgern, besseres Werkzeug-Aufrufen, hochwertiges “Harness”-Engineering zur Bereitstellung des richtigen Kontexts sowie den Aufbau von Systemen, in denen mehrere Agenten zusammenarbeiten und miteinander kommunizieren. Engineering-Abteilungen bräuchten Budget, Schulung und Zugang, um KI-nativ zu werden; zugleich warnt er vor einem “Schlangenöl-Problem”, da viele Firmen mit KI-Schlagworten würben, ohne ihre Versprechen einzulösen.
Den insgesamt breiteren Zugang zu “Frontier-Modellen” wertet Herbert-Voss letztlich als positiv. Die Branche solle die Dynamik nutzen, um mehrschichtige Verteidigung aufzubauen und konsequenter zu patchen – Dinge, die man ohnehin von Anfang an hätte tun sollen.
