Die von Tenet Security als „Agentjacking“ bezeichnete Technik nutzt keinen klassischen Softwarefehler in Sentry aus. Stattdessen zielt sie auf eine grundlegende Schwäche von KI-Coding-Agenten: Sie können laut Tenet nicht zuverlässig zwischen gelesenen Inhalten und Handlungsanweisungen unterscheiden. Wenn ein MCP-Connector Daten aus externen Quellen wie Dokumenten, E-Mails oder Fehlerprotokollen abruft, behandelt der Agent alles als Eingabe. Dadurch lassen sich bösartige Anweisungen unauffällig in eigentlich legitime Daten einschleusen.
Für die Demonstration reichten die Forscher einen gefälschten Fehlerbericht in ein Sentry-Projekt ein, und zwar über eine öffentlich erreichbare Data Source Name, kurz DSN. Anwendungen nutzen diese projektbezogene DSN, um Telemetriedaten an eine Sentry-Instanz zu senden, ohne dass dafür eine Nutzeranmeldung erforderlich ist. Viele Organisationen legen ihre Sentry-DSNs offen, damit clientseitige Anwendungen Fehler- und Leistungsdaten direkt an Sentry melden können.
Der eingeschleuste „Fehler“ war laut Tenet als normale Debug-Nachricht getarnt, enthielt aber versteckte Instruktionen für KI-Coding-Agenten, die ungelöste Sentry-Vorfälle untersuchen sollten. Fragte ein Entwickler Sentry per MCP über einen solchen Agenten ab, zog dieser das manipulierte Fehlerereignis ein und deutete die eingebetteten Anweisungen als zulässige Hilfe bei der Fehlersuche. Tenet zufolge betraf ein beobachteter Fall sogar ein Unternehmen mit einem Marktwert von 250 Milliarden US-Dollar.
In kontrollierten Tests stellte Tenet fest, dass verbreitete Werkzeuge wie Claude Code, Cursor und Codex die präparierten Daten abriefen und in vielen Fällen angreifergesteuerten Code auf dem Entwicklerrechner ausführten. In einem realen Angriff hätte das nach Darstellung des Unternehmens zum Diebstahl von Cloud-Zugangsdaten, AWS-Schlüsseln, GitHub-Token, SSH-Schlüsseln und Geheimnissen aus CI/CD-Pipelines führen können.
Barak Sternberg, CEO und Mitgründer von Tenet Security, sieht darin einen blinden Fleck vorhandener Schutzmechanismen. Die von Unternehmen eingeführten KI-Agenten seien nun der weiche Angriffsweg ins Unternehmen, während der bestehende Sicherheits-Stack dies nicht erkenne, sagte er. Besonders problematisch sei, dass bei dem Ablauf jeder Schritt autorisiert wirke: Der Agent lese den Eintrag, vertraue ihm und führe den Code mit den bestehenden Rechten des Entwicklers aus. Dadurch gebe es für Identitäts- und Zugriffsmanagement, Endpunkterkennung und Netzwerkkontrollen nichts Auffälliges zu markieren.
Sternberg betont deshalb, die Schlussfolgerung sei nicht, Sentry zu patchen. Das Kernproblem liege darin, dass Agenten Daten und Befehle nicht sauber voneinander trennen könnten, obwohl sie inzwischen Telemetrie, Protokolle, Tickets und Werkzeugausgaben verarbeiten, die bisher kaum jemand als Angriffsfläche betrachtet habe. Maßnahmen wie Konfigurationsänderungen, Hinweise an den Agenten, nicht vertrauenswürdige Eingaben zu ignorieren, Sandboxing oder eine Identität für den Agenten würden jeweils nur begrenzt helfen, so Sternberg.
Als kurzfristige Gegenmaßnahmen empfiehlt er, Skripte zur Paketinstallation zu deaktivieren und eine menschliche Freigabe zu verlangen, bevor ein Agent Shell-Befehle ausführt oder aus eingelesenen Daten Installationen anstößt. Außerdem sollten Agenten nur mit minimalen Rechten laufen. Langfristig müssten Organisationen Fähigkeiten aufbauen, die Absicht eines Agenten in Echtzeit mit der ursprünglichen Absicht des Nutzers abzugleichen und Fehlsteuerungen genau im Moment der Ausführung zu erkennen.
Auch Gene Moody, Field CTO bei Action1, fordert, KI-Modelle grundsätzlich als unsicher und nicht vertrauenswürdig zu behandeln, bis sie vollständig geprüft wurden. Vollständig geprüft bedeute in diesem Fall umfassende Sicherheitstests statt bloßer Workflow-Tests. Selbst danach sollten sie stark reglementiert werden, die Datenquellen für ihre Eingaben begrenzt und ebenfalls kontrolliert werden. Ziel müsse es sein, zu verhindern, dass ein KI-Agent außerhalb ausdrücklich genehmigter Vorgaben handelt.
Tenet verweist zudem auf eine frühere Vorführung eines Netskope-Forschers auf der RSAC 2026. Dort wurde gezeigt, wie ein Angreifer per E-Mail bösartige Anweisungen einschleusen kann, die ein KI-Assistent blind ausführt, wenn der Nutzer ihn um eine Zusammenfassung der Nachricht bittet.
