Cobalts Technologiechef Gunter Ollmann beschreibt die Entwicklung als Korrektur überzogener Erwartungen. Gerade CISOs seien in den vergangenen zwei Jahren von Geschäftsleitung und Aufsichtsgremien stark dazu gedrängt worden, mehr KI einzusetzen. Autonome Penetrationstests hätten dieses Bedürfnis auf den ersten Blick erfüllt. Nach einem Jahr mit Einführungen und Experimenten sei das Vertrauen in Sicherheit und Wirksamkeit dieser Werkzeuge jedoch gesunken.

Der Bericht zeigt zugleich, dass Unternehmen ihre Sicherheitsprüfungen keineswegs zurückfahren. Laut Cobalt wollen 77 Prozent regelmäßige Sicherheitsbewertungen und Penetrationstests durchführen. Gesucht wird also eher ein verlässlicher Bereich für Automatisierung als ein vollständiger Ersatz menschlicher Prüfer. Ollmann spricht davon, dass Praktiker derzeit herausfinden, was sich zuverlässig und verantwortungsvoll automatisieren lässt.

Ein Grund für diese Vorsicht ist die Qualität der Ergebnisse. Obwohl KI-Systeme mehr Schwachstellen finden, übersehen sie laut Bericht weiterhin Lücken mit hoher und kritischer Schwere. 78 Prozent der Unternehmen haben erlebt, dass automatisierte Systeme erhebliche Schwachstellen nicht erkannt haben. Diese falschen Negativbefunde bremsen laut Cobalt die Bereitschaft, vollständig auf Automatisierung zu setzen.

Hinzu kommt die schiere Datenmenge. Derek Rush, Managing Senior Consultant bei Bishop Fox, sagt, KI-gestützte Sicherheitsanalysen erzeugten ein enormes Volumen an Informationen. Ein erfahrener Mensch müsse den vom Sprachmodell erzeugten Kontext einordnen, entscheiden, ob sich eine Spur lohnt, und gegebenenfalls die vollständige, validierte Angriffskette herausarbeiten. Genau dieses Urteil gehe verloren, wenn der Mensch aus dem Prozess entfernt werde.

Auch auf der anderen Seite des Problems wächst der Druck. Nach einer Analyse des Forum of Incident Response and Security Teams (FIRST) werden Schwachstellen derzeit mit einer um 46 Prozent höheren Rate gemeldet als auf Basis der Vorjahresdaten erwartet. Microsoft behob in seinen Patch-Tuesday-Updates im Juni 2026 zudem 206 eindeutige CVEs — ein Rekord, der laut dem Quelltext durch KI-gestützte Schwachstellenentdeckung getrieben war.

Die Engstelle verlagert sich damit von der Entdeckung zur Verifikation. Die FIRST-Analysten Jerry Gamblin und Eireann Leverett schreiben, in einer Zeit, in der KI deutlich mehr Fehler finde als menschliche Analysten, sei nicht mehr die Identifikation der begrenzende Faktor, sondern die menschliche Fähigkeit zur Verifizierung, Koordination und Behebung. Als weitere Engstelle nennen sie das Schreiben von Erkennungssignaturen für die Ausnutzung. Oft liege das Problem im Unterschied zwischen bloßer Identifikation und echter Risikoerkennung.

Dass die Validierung bereits zum Problem wird, zeigt laut Quelltext auch HackerOne. Das Unternehmen pausierte sein Internet Bug Bounty-Programm wegen der wachsenden Zahl eingereichter Meldungen, die überprüft werden mussten. Sandeep Singh, Vice President of Product Strategy bei HackerOne, bezeichnet vor allem falsche Positivmeldungen als bekanntes Problem: Sie seien laut, verursachten Aufwand und machten Triage und Validierung teuer. KI könne zwar auch bei der Validierung helfen, doch falsche Positive und falsche Negative blieben vorerst zentrale Schwierigkeiten.

Für CISOs läuft die Entscheidung über Automatisierung daher laut Cobalt zunehmend auf den Ertrag im Verhältnis zu den Kosten hinaus. Gerade die Kosten von KI-gestützten Penetrationstests seien schwer vorherzusagen. Ollmann nennt den Kostenaspekt ein großes Anliegen und verweist darauf, dass Sicherheitsverantwortliche angesichts aus dem Ruder laufender Gebühren in anderen Geschäftsprozessen zurückhaltender geworden seien. HackerOne geht trotzdem nicht von einem grundsätzlichen Rückschritt aus. Singh spricht eher von einer Korrektur des Marktes: Verwechselt worden sei kurzfristig die Aussage, dass KI Penetrationstests unterstützen und verstärken kann, mit der Annahme, sie könne den Pentester ersetzen. Dauerhaft tragfähig sei stattdessen ein Modell, in dem Agenten die kontinuierliche Breite und den ersten Durchgang übernehmen, während Menschen in größeren Abständen Tiefe und Urteilsvermögen einbringen.