Nach Darstellung von Adversa AI genügt für einen Angriff ein präpariertes Repository, das einen bösartigen MCP-Server samt einer Konfiguration enthält, die dessen Ausführung automatisch freigibt. Klont oder öffnet ein Entwickler dieses Repository im KI-Codingwerkzeug und bestätigt mit der Eingabetaste, was wie eine routinemäßige Sicherheitsabfrage aussieht, startet das Tool den vom Angreifer kontrollierten Code mit den vollen Systemrechten des Nutzers — ohne weitere Nachfrage.

„Ein Repository kann eine Konfiguration mitliefern, die einen MCP-Server automatisch freigibt und sofort startet, ein Tool-Aufruf des Agenten ist nicht nötig", sagt Utevsky gegenüber Dark Reading. „Der Unterschied liegt allein darin, wie klar der Dialog dem Nutzer sagt, wozu er seine Zustimmung gibt." Die Bandbreite möglicher Schadlasten ist groß: Angreifer könnten lokale Dateien auslesen, darunter Geheimnisse, SSH-Schlüssel und Tokens, auf andere Projekte zugreifen, Hintertüren installieren und eine Command-and-Control-Verbindung aufbauen. In einer CI/CD-Umgebung läuft derselbe Angriff vollständig ohne menschliche Interaktion ab.

„Die Auswirkung ist die vollständige Kompromittierung der Maschine, nicht nur der Zugriff auf das Projekt", heißt es in einem Bericht von Adversa AI, der sich auf Angriffe mit Claude Code konzentriert. MCP-Server laufen demnach als native Betriebssystemprozesse mit den vollen Rechten des Nutzers und sind in keiner Weise in einer Sandbox isoliert. Die Schadlast werde in dem Moment ausgeführt, in dem der MCP-Serverprozess startet.

Besonders kritisch sieht Adversa AI eine Änderung am Vertrauensdialog, die Anthropic mit Claude Code Version 2.1 einführte und die zuvor vorhandene Warnhinweise entfernte. Frühere Versionen vor 2.1 hätten ausdrücklich vor der MCP-Ausführung gewarnt und die Möglichkeit geboten, mit deaktivierten MCP-Servern fortzufahren — beides fehlt laut Utevsky nun. Übrig bleibe ein schlichtes „Ja, ich vertraue diesem Ordner". „Den meisten Entwicklern ist nicht klar, dass ‚Vertrauen’ so viel Macht überträgt", so Utevsky. Der Dialog spiele zudem die Tragweite der Entscheidung herunter und sei standardmäßig auf „Vertrauen" voreingestellt, sodass ein reflexhafter Druck auf die Eingabetaste zu unsicherem Verhalten führe.

Utevsky verweist auf eine interne Inkonsistenz: Andere Einstellungen wie bypassPermissions lösten einen deutlich alarmierenderen Dialog mit stärkerer Sprache aus, der standardmäßig auf „Nein, beenden" stehe. „Dasselbe Produkt behandelt weniger gefährliche Einstellungen vorsichtiger als diese."

Das als TrustFall bezeichnete Problem reiht sich laut Adversa AI in drei weitere ausnutzbare Schwachstellen in Claude Code ein, mit denen ein bösartiges Repository projektbezogene Einstellungen missbrauchen könnte, um das Verhalten des Tools unbemerkt zu verändern: CVE-2025-59536, CVE-2026-21852 und CVE-2026-33068, die Anthropic alle gepatcht hat. Daneben identifizierte Adversa AI drei Konfigurationseinstellungen, über die ein Angreifer ohne ausdrückliche Vorwarnung beliebigen Code ausführen lassen könnte — etwa indem die Schadlast direkt in der Konfigurationsdatei platziert wird, was das Erkennen durch Sicherheitsscanner erschwert.

Anthropic argumentiert, anders als bei früheren Schwachstellen, die Codeausführung schon vor Erscheinen eines Vertrauensdialogs erlaubten, finde die Ausführung hier erst nach der Zustimmung des Nutzers statt. Adversa AI weist darauf hin, dass es Anthropics Entscheidung sei, ob dies die Schwelle für eine Schwachstelle erreiche — ob Nutzer unter dem Dialog ab Version 2.1 jedoch eine informierte Vertrauensentscheidung träfen, sei aus Sicht der Forscher keine offene Frage: Sie täten es nicht. Da es sich um eine branchenweite Konvention und nicht um einen herstellerspezifischen Fehler handele, habe man das Problem bei den anderen Toolherstellern nicht gemeldet.

Zur Risikominderung empfiehlt Adversa AI, Projektkonfigurationen vor dem Öffnen neuer Repositories zu prüfen und ungewöhnliche Prozesse durch Entwicklungswerkzeuge per Verhaltensüberwachung zu erkennen. In CI-Umgebungen sei der wirksamste Schutz, das Werkzeug nicht automatisch auf nicht vertrauenswürdigem Code laufen zu lassen.