SafeBreach zeigt Prompt-Injection gegen Google Gemini über Benachrichtigungen

Zusammenfassung

SafeBreach hat eine neue Prompt-Injection-Technik veröffentlicht, mit der sich Googles Sprachassistent Gemini über zusammengefasste Nachrichtenbenachrichtigungen missbrauchen ließ. Die Forschung mit dem Titel „Geminis heimliche Affäre: Ausnutzung des Gemini-Sprachassistenten über Instant-Messaging-Apps“ baut auf früheren Erkenntnissen des Unternehmens auf, bei denen bereits Kalendereinladungen genutzt wurden, um Gemini zur Verarbeitung schädlicher Eingaben zu verleiten. Laut Or Yair, Leiter des Sicherheitsteams von SafeBreach, konnten Angreifer schädliche Anweisungen in Fremdsprachen oder in stummgeschalteten Hyperlinks verbergen, sodass der Assistent die Informationen still verarbeitet und unautorisierte Interaktionen ausführt. Dazu zählen nach Angaben von SafeBreach die Steuerung von Smart-Home-Geräten, das Starten nicht autorisierter Videostreams, Social-Engineering-Angriffe einschließlich der Nachahmung vertrauenswürdiger Kontakte sowie die Vergiftung des langfristigen Gedächtnisses großer Sprachmodelle. Hinweise auf eine Ausnutzung in freier Wildbahn gibt es derzeit nicht. SafeBreach meldete das Problem im Rahmen verantwortungsvoller Offenlegung an Google; Google hat nach Angaben des Unternehmens inzwischen Aktualisierungen an seinen Inhaltsklassifikatoren ausgerollt.

Im Kern der neuen Angriffstechnik stand laut SafeBreach ein Versagen bestehender Schutzmechanismen von Google Gemini: Einige der Leitplanken übermittelten die Herkunft bestimmter Nachrichten nicht korrekt. Genau diese fehlende Quellenangabe ließ sich ausnutzen, um den Assistenten in einen falschen Kontext zu setzen.

SafeBreach bezeichnet die Methode als „Fake Context Alignment“. Or Yair zufolge gelang es damit, Googles vorhandene Schutzmechanismen zu umgehen. Die Technik soll eine doppelte Täuschung erzeugen: Hinter den Kulissen erscheint für Geminis Sicherheitsmechanismen ein legitimes Autorisierungsszenario, während dem Opfer zugleich ein anderer, harmloser Kontext präsentiert wird.

Das von SafeBreach beschriebene Szenario beginnt mit einer Phishing-Nachricht, etwa über WhatsApp, von einer unbekannten Nummer. Sichtbar ist eine Einladung zu einer Geburtstagsfeier eines engen Freundes samt Geldforderung und Zahlungslink. Zusätzlich enthält die Nachricht laut Bericht sichtbaren Hyperlink-Code mit der Anweisung an Gemini, die Nachricht so darzustellen, als stamme sie von diesem Freund und nicht von einer unbekannten Nummer. Fordert der Nutzer Gemini dann auf, seine Nachrichten vorzulesen, kann der Assistent die Einladung ohne den entscheidenden Kontext wiedergeben.

Der Unterschied ist laut SafeBreach besonders relevant, wenn Nutzer Benachrichtigungen nicht selbst lesen, sondern sich von Gemini zusammenfassen lassen, etwa beim Autofahren. Während ein normal betrachteter Text eher als Phishing-Versuch auffallen würde, kann die fehlende Einordnung beim Vorlesen Vertrauen schaffen.

Neben Hyperlink-Code konnten Angreifer laut SafeBreach auch unsichtbaren Text in einer Fremdsprache ans Ende einer Nachricht setzen. Gemini interpretiere diesen Inhalt, lese ihn aber nicht vor. In Fällen, in denen Googles Schutzmechanismen eine direkte schädliche Anweisung sonst blockieren würden, ließ sich zudem eine weitere, aus früherer Forschung bekannte Technik einsetzen: „Delayed Tool Invocation“. Dabei wird eine unsichere Aktion erst dann ausgelöst, wenn der Nutzer noch eine zweite, scheinbar harmlose Bestätigung gibt.

Ein Beispiel aus der Untersuchung: Eine Nachricht enthält „Hallo“, gefolgt von chinesischen Zeichen mit versteckten Anweisungen, die das Modell nicht laut vorliest, und endet mit „War das alles?“. Die verborgenen Anweisungen weisen Gemini an, eine unsichere Aktion auszuführen, falls das Ziel die Nachricht bejaht.

Die besten Ergebnisse erzielte Yair nach eigenen Angaben durch die Kombination beider Methoden. Um „maximale Zuverlässigkeit und Tarnung“ zu erreichen, kombinierte er Fremdzeichen und einen Hyperlink. Der endgültige Nutzinhalt zwinge Gemini dazu, die bösartige Autorisierungsfrage auf Chinesisch auszugeben und den chinesischen Text vollständig in einem stummgeschalteten Hyperlink zu verbergen. Der Nutzer höre dann eine völlig normale englischsprachige Aufforderung, antworte mit einem harmlosen „Ja“ und löse damit unbemerkt die verzögerte Werkzeugausführung aus.

Die ursprüngliche Variante von „Delayed Tool Invocation“ war laut Bericht bereits behoben worden. „Fake Context Alignment“ habe diese Gegenmaßnahmen jedoch umgangen, bevor Google das nun beschriebene Problem behob. Konkrete Maßnahmen für Gemini-Nutzer seien nach der Behebung nicht erforderlich.

Yair sagte Dark Reading auf die Frage, ob KI-Assistenten sämtliche externen Inhalte wie Benachrichtigungen standardmäßig als nicht vertrauenswürdig behandeln sollten: „Ja, hundertprozentig.“ Externe Eingaben müssten generell als nicht vertrauenswürdig gelten, weil jede externe Eingabe potenziell eine Anweisung sei. Indirekte Prompt-Injection sei zudem keine klassische Schwachstelle, die sich einfach beheben lasse. Als Gegenmaßnahme nannte er Leitplanken oder Klassifikatoren auf Herstellerseite, also aktive Sicherheitskontrollen zur Überwachung dieses Verhaltens.

SafeBreach zeigt Prompt-Injection gegen Google Gemini über Benachrichtigungen

Ähnliche Artikel

Neueste Artikel