Im Kern der neuen Angriffstechnik stand laut SafeBreach ein Versagen bestehender Schutzmechanismen von Google Gemini: Einige der Leitplanken übermittelten die Herkunft bestimmter Nachrichten nicht korrekt. Genau diese fehlende Quellenangabe ließ sich ausnutzen, um den Assistenten in einen falschen Kontext zu setzen.

SafeBreach bezeichnet die Methode als „Fake Context Alignment“. Or Yair zufolge gelang es damit, Googles vorhandene Schutzmechanismen zu umgehen. Die Technik soll eine doppelte Täuschung erzeugen: Hinter den Kulissen erscheint für Geminis Sicherheitsmechanismen ein legitimes Autorisierungsszenario, während dem Opfer zugleich ein anderer, harmloser Kontext präsentiert wird.

Das von SafeBreach beschriebene Szenario beginnt mit einer Phishing-Nachricht, etwa über WhatsApp, von einer unbekannten Nummer. Sichtbar ist eine Einladung zu einer Geburtstagsfeier eines engen Freundes samt Geldforderung und Zahlungslink. Zusätzlich enthält die Nachricht laut Bericht sichtbaren Hyperlink-Code mit der Anweisung an Gemini, die Nachricht so darzustellen, als stamme sie von diesem Freund und nicht von einer unbekannten Nummer. Fordert der Nutzer Gemini dann auf, seine Nachrichten vorzulesen, kann der Assistent die Einladung ohne den entscheidenden Kontext wiedergeben.

Der Unterschied ist laut SafeBreach besonders relevant, wenn Nutzer Benachrichtigungen nicht selbst lesen, sondern sich von Gemini zusammenfassen lassen, etwa beim Autofahren. Während ein normal betrachteter Text eher als Phishing-Versuch auffallen würde, kann die fehlende Einordnung beim Vorlesen Vertrauen schaffen.

Neben Hyperlink-Code konnten Angreifer laut SafeBreach auch unsichtbaren Text in einer Fremdsprache ans Ende einer Nachricht setzen. Gemini interpretiere diesen Inhalt, lese ihn aber nicht vor. In Fällen, in denen Googles Schutzmechanismen eine direkte schädliche Anweisung sonst blockieren würden, ließ sich zudem eine weitere, aus früherer Forschung bekannte Technik einsetzen: „Delayed Tool Invocation“. Dabei wird eine unsichere Aktion erst dann ausgelöst, wenn der Nutzer noch eine zweite, scheinbar harmlose Bestätigung gibt.

Ein Beispiel aus der Untersuchung: Eine Nachricht enthält „Hallo“, gefolgt von chinesischen Zeichen mit versteckten Anweisungen, die das Modell nicht laut vorliest, und endet mit „War das alles?“. Die verborgenen Anweisungen weisen Gemini an, eine unsichere Aktion auszuführen, falls das Ziel die Nachricht bejaht.

Die besten Ergebnisse erzielte Yair nach eigenen Angaben durch die Kombination beider Methoden. Um „maximale Zuverlässigkeit und Tarnung“ zu erreichen, kombinierte er Fremdzeichen und einen Hyperlink. Der endgültige Nutzinhalt zwinge Gemini dazu, die bösartige Autorisierungsfrage auf Chinesisch auszugeben und den chinesischen Text vollständig in einem stummgeschalteten Hyperlink zu verbergen. Der Nutzer höre dann eine völlig normale englischsprachige Aufforderung, antworte mit einem harmlosen „Ja“ und löse damit unbemerkt die verzögerte Werkzeugausführung aus.

Die ursprüngliche Variante von „Delayed Tool Invocation“ war laut Bericht bereits behoben worden. „Fake Context Alignment“ habe diese Gegenmaßnahmen jedoch umgangen, bevor Google das nun beschriebene Problem behob. Konkrete Maßnahmen für Gemini-Nutzer seien nach der Behebung nicht erforderlich.

Yair sagte Dark Reading auf die Frage, ob KI-Assistenten sämtliche externen Inhalte wie Benachrichtigungen standardmäßig als nicht vertrauenswürdig behandeln sollten: „Ja, hundertprozentig.“ Externe Eingaben müssten generell als nicht vertrauenswürdig gelten, weil jede externe Eingabe potenziell eine Anweisung sei. Indirekte Prompt-Injection sei zudem keine klassische Schwachstelle, die sich einfach beheben lasse. Als Gegenmaßnahme nannte er Leitplanken oder Klassifikatoren auf Herstellerseite, also aktive Sicherheitskontrollen zur Überwachung dieses Verhaltens.