TrustFall: Kritische Sicherheitslücke in KI-Coding-Tools gefährdet Entwickler

Die von Adversa AI durchgeführte Sicherheitsanalyse enthüllt ein fundamentales Designproblem in vier der beliebtesten KI-Coding-Assistenten. Das zentrale Problem liegt in der Implementierung des Model Context Protocol (MCP), das es diesen Tools ermöglicht, externe Server zu laden und auszuführen. Während alle vier Anbieter Vertrauensdialoge implementiert haben, die Nutzer auffordern, ein Repository als vertrauenswürdig zu kennzeichnen, fehlt es diesen Dialogen an Transparenz über die tatsächlichen Konsequenzen dieser Zustimmung.

Claude Code von Anthropic bietet besonders wenig Information in seinem Trust-Dialog. Die kritischste Erkenntnis: Ein Angreifer kann ein Repository mit einer Konfiguration versehen, die einen bösartigen MCP-Server automatisch genehmigt und startet – teilweise ohne dass das KI-Tool selbst einen Tool-Call tätigen muss. Der Nutzer drückt einfach Enter auf dem scheinbar harmlosen Sicherheitsdialog, und schon wird der Schadcode mit vollständigen Systemrechten ausgeführt. In CI/CD-Umgebungen verläuft dieser Prozess vollständig automatisch, ohne menschliche Interaktion.

Besonders problematisch ist eine Designänderung in Claude Code Version 2.1. Anthropic hat explizite Warnungen entfernt, die MCP-Ausführungen zuvor klar als Risiko dargestellt hatten. Der neue Dialog – “Ja, ich vertraue diesem Ordner” – verharmlost die Tragweite dieser Entscheidung erheblich.

Adversa AI identifizierte drei kritische Konfigurationseinstellungen, die Angreifer missbrauchen könnten: Erstens die automatische Genehmigung eines bösartigen MCP-Servers, zweitens die direkte Platzierung von Payloads in Konfigurationsdateien (schwerer zu erkennen) und drittens die Vorautorisierung spezifischer Tool-Calls. Zusätzlich dokumentierten die Forscher drei bereits von Anthropic gepatchte Vulnerabilities: CVE-2025-59536, CVE-2026-21852 und CVE-2026-33068.

Anthropics Position ist defensiv: Der Konzern argumentiert, dass Code-Ausführung erst nach ausdrücklicher Zustimmung des Nutzers erfolgt und dies außerhalb ihres Threat-Modells liege. Adversa AI widerspricht dieser Einschätzung deutlich: Die Nutzer treffen keine informierte Entscheidung, wenn die Warndialoge so verharmlosend formuliert sind.

Für deutsche Organisationen ergeben sich erhebliche Implikationen. Unternehmen, deren Systeme kompromittiert werden, müssen Datenpannen nach DSGVO-Artikel 33 innerhalb von 72 Stunden dem Bundesdatenschutzbeauftragten (BfDI) melden. Bußgelder können bis zu 4 Prozent des Jahresumsatzes betragen. Das BSI empfiehlt Organisationen, die Nutzung dieser Tools in der Entwicklung zu überwachen, Projekteinstellungen zu inspizieren und verhaltensbasierte Anomalieerkennung einzusetzen. Im CI/CD-Umfeld sollte die automatische Ausführung auf untrusted Code grundsätzlich vermieden werden.