Nach Darstellung von LayerX liegt der Kern des Problems darin, dass die Claude-Erweiterung mit jedem Skript interagiert, das in der Ursprungsdomain des Browsers läuft, ohne dessen Urheber zu prüfen. „Dadurch kann jede Erweiterung ein Content-Skript aufrufen – das keinerlei besondere Berechtigungen erfordert – und Befehle an die Claude-Erweiterung absetzen", erklärt das Unternehmen.
Entscheidend ist, dass Claude in Chrome der Herkunft der Ausführung vertraut, also claude.ai, und nicht dem Ausführungskontext. So kann beliebiger JavaScript-Code innerhalb dieser Herkunft privilegierte Befehle erteilen. Ein Angreifer erstellt dazu eine Erweiterung mit einem deklarierten Content-Skript, das für die Ausführung in der sogenannten Main world konfiguriert ist. Damit läuft das Skript als Teil der Seite und kann eine Nachricht an die Claude-Erweiterung senden, die dem Absender vertraut, weil er unter claude.ai ausgeführt wird.
Da ein Nachrichten-Handler in Claude in Chrome beliebige Prompts annimmt und weiterleitet, lässt sich darüber eine Prompt Injection aus der Ferne durchführen. Zwar verlangt Claude bei sensiblen Aktionen eine Bestätigung durch den Nutzer und setzt Richtlinien durch, die bestimmte Aktionen unterbinden. LayerX zeigte jedoch, dass das Skript des Angreifers diese Schutzmaßnahmen umgehen kann: Die Firma fälschte die Nutzerfreigabe, indem sie wiederholt eine Bestätigungsnachricht sendete, und nutzte Manipulation am Document Object Model (DOM), um Oberflächenelemente dynamisch zu verändern und so Claudes Wahrnehmung der Aktionen zu verfälschen. Einblick in die Befehlsausführung gewann sie durch wiederholtes Auslösen der Aktion und Beobachten der Auswirkungen.
„Diese Schwachstelle hebelt das Sicherheitsmodell der Chrome-Erweiterungen effektiv aus, indem sie es einer Erweiterung ohne jede Berechtigung erlaubt, die Fähigkeiten eines vertrauenswürdigen KI-Assistenten zu übernehmen", so LayerX. Über diese Angriffskette lasse sich Claude dazu missbrauchen, Daten aus Gmail, GitHub oder Google Drive abzugreifen sowie im Namen des Nutzers E-Mails zu versenden, Daten zu löschen und Dokumente zu teilen.
Auf die Meldung hin teilte Anthropic gegenüber LayerX mit, an einem Patch zu arbeiten. Die Korrektur behebt die zugrunde liegende Schwachstelle laut LayerX jedoch nur teilweise: Sie setzt interne Sicherheitsprüfungen ein, die verhindern sollen, dass Erweiterungen im „Standard"-Modus entfernte Befehle ausführen. Da die eigentliche Ursache nicht beseitigt wurde, kann ein Angreifer die Erweiterung schlicht in den „privilegierten" Modus umschalten und den Schutz umgehen. Der Nutzer werde über diesen Wechsel weder informiert noch um Zustimmung gebeten, betont LayerX.
