LayerX baute den Angriff als Rätsel auf. Passend zum dystopischen Szenario belohnte die Seite absichtlich falsche Antworten, etwa die Behauptung, dass 2 + 2 gleich 5 sei. Sobald der Agent akzeptiert, dass im Spiel die „falsche“ Antwort als richtig gilt, folgt er nach Darstellung der Forscher der Spiellogik statt seinen Sicherheitsregeln.
Am Ende des Rätsels forderte die Seite den Agenten auf, die Zugangsdaten des Nutzers zu beschaffen. Laut LayerX erkannte keiner der sechs getesteten Agenten diesen Schritt als etwas, das er verweigern sollte. Im Versuch erhielt das Opfer einen Link zu einem geschäftlichen GitHub-Repository; der Agent zog daraus SSH-Anmeldedaten und übergab sie an den Angreifer.
LayerX nutzte nach eigenen Angaben lediglich eine harmlose Klartextdatei. Die gleiche Methode könne aber auch auf andere Ressourcen zielen, auf die der Agent in derselben Sitzung Zugriff hat – etwa geöffnete Tabs, bereits angemeldete Konten oder interne Werkzeuge. Der Agent habe dabei nicht gezögert und den Diebstahl anschließend sogar als Erfolg gemeldet.
Die Forscher ordnen das Problem als indirekte Prompt-Injection ein. Der entscheidende Punkt ist, dass Webinhalte und Nutzervorgaben für den Agenten nicht sauber getrennt werden. So kann eine bösartige Seite Anweisungen als gewöhnlichen Inhalt tarnen, ohne dass der Agent den Unterschied zuverlässig erkennt.
Der Name „BioShocking“ spielt auf BioShock an, in dem eine gehirngewaschene Figur auf die Auslöserphrase „Würden Sie bitte?“ reagiert. Nach Darstellung von LayerX verhalten sich die Agenten ähnlich: Sie vertrauen dem Kontext, der ihnen präsentiert wird. Wird dieser Kontext manipuliert, ändert sich auch ihr Verhalten.
LayerX verweist darauf, dieses Muster bereits früher gezeigt zu haben. Damals demonstrierten die Forscher, dass ein einzelner Klick ausreichen könne, um Perplexitys Comet zu kapern und unbemerkt Daten zu stehlen.
Bei den Reaktionen der Hersteller sieht LayerX ein uneinheitliches Bild. Das Unternehmen meldete die Probleme zwischen Oktober 2025 und Januar 2026 an die Anbieter. OpenAI behob das Problem in ChatGPT Atlas. Perplexity schloss den Bericht laut LayerX, ohne Maßnahmen zu ergreifen.
Fellou, Genspark und Sigma reagierten demnach nicht. Anthropic versuchte zwar, seine Claude-Erweiterung zu patchen, doch LayerX zufolge hielt die Korrektur nicht stand.
Als Gegenmaßnahme fordert LayerX, dass KI-Browser vor dem Lesen aus bereits angemeldeten Konten nachfragen. Eine Rückfrage wie „Ich bin dabei, Daten aus Ihrem GitHub-Repository zu kopieren. Fortfahren?“ würde die Angriffskette nach Einschätzung der Forscher unterbrechen. Zudem sollten Agenten erkennen, wenn eine Seite ihnen mitteilt, dass die normalen Regeln nicht mehr gelten, und Nutzer müssten harte Grenzen dafür setzen können, worauf ein Agent zugreifen darf.
Für Unternehmen zieht LayerX daraus denselben Schluss im größeren Maßstab: Ein KI-Browser im Agentenmodus sei praktisch ein weiteres Konto mit Reichweite in Unternehmenssysteme. Entsprechend sollte er nur die engsten Rechte erhalten, die für eine Aufgabe nötig sind, statt dauerhaften Zugriff auf alles, worauf der Nutzer zugreifen kann.
