Im Kern beruht Agentjacking auf einem Vertrauensproblem beim Anschluss externer Dienste über das Model Context Protocol (MCP). Laut Tenet Security kann ein KI-Agent nicht unterscheiden, ob ein Fehlerereignis durch einen echten Anwendungsabsturz entstanden ist oder von einem Angreifer eingeschleust wurde. Verarbeitet der Agent die Antwort des Dienstes, entsteht dadurch ein Pfad zur Ausführung beliebigen Codes.
Tenet beschreibt eine Angriffskette, bei der die Infrastruktur des Opfers nicht direkt angegriffen werden muss. „Der Angreifer berührt niemals die Infrastruktur des Opfers“, erklärten die Forscher. Die schädliche Anweisung komme als scheinbar legitime „Lösung“ in einem gewöhnlichen Fehler daher. Wenn ein Entwickler seinen KI-Agenten bittet, das Sentry-Problem zu beheben, lese dieser den Befehl des Angreifers als vertrauenswürdige Anleitung und führe ihn mit den Rechten des Entwicklers auf dessen eigenem Rechner aus.
Besonders ist der Ansatz nach Angaben von Tenet Security, weil er gezielt den KI-Agenten angreift, dem Entwickler vertrauen, und dabei eine Sentry-DSN als Ausgangspunkt nutzt. Hinzu komme, dass die Markdown-Injektion so dargestellt werde, dass der Agent sie nicht von legitimen Hinweisen aus Sentry unterscheiden könne.
Nach Angaben des Unternehmens waren mindestens 2.388 Organisationen mit gültigen, injizierbaren DSNs exponiert. Tenet testete den Angriff nach eigenen Angaben kontrolliert bei mehr als 100 Organisationen und erreichte bei eingeschleusten Fehlern eine Erfolgsquote von 85 Prozent gegen einige der am weitesten verbreiteten KI-Coding-Assistenten.
Sentry hat das Problem dem Bericht zufolge eingeräumt, sich aber gegen eine Behebung entschieden, weil es „technisch nicht abwehrbar“ sei. Das Unternehmen soll jedoch einen globalen Inhaltsfilter aktiviert haben, der eine „spezifische Nutzdaten-Zeichenfolge“ blockiert.
Tenet Security ordnet die Ergebnisse als Hinweis darauf ein, dass KI-Coding-Agenten selbst zur Angriffsfläche werden. Das Unternehmen erklärte, der Angriff richte sich gegen die Entwickler, die diesen Werkzeugen vertrauen, und nutze ausschließlich Daten, die die betroffenen Organisationen selbst veröffentlichen. Zudem umgehe die Methode laut Tenet EDR, WAF, IAM, VPN, Cloudflare und Firewalls, „weil es nichts Bösartiges zu erkennen gibt. Jede Aktion in der Kette ist autorisiert.“
