ChatGPhish: Permiso zeigt, wie sich ChatGPT-Zusammenfassungen für Phishing missbrauchen lassen

Zusammenfassung

Sicherheitsforscher von Permiso Security haben eine Schwachstelle in OpenAIs ChatGPT offengelegt, die das implizite Vertrauen des KI-Assistenten in Markdown-Links und -Bilder ausnutzt. Die unter dem Namen ChatGPhish dokumentierte Technik macht aus der Zusammenfassungsfunktion eine Angriffsfläche für Phishing. Laut dem Forscher Andi Ahmeti vertraut der Antwort-Renderer von chatgpt.com Markdown-Links und Bild-URLs, die aus einer gerade zusammengefassten Drittseite stammen: Bilder werden automatisch geladen, Links als anklickbare Elemente innerhalb der vertrauenswürdigen Oberfläche des Assistenten dargestellt. Ein Angreifer kann damit einer beliebigen Webseite eine kleine Schadlast anhängen. Bittet das Opfer ChatGPT später um eine Zusammenfassung dieser Seite, werden beim Rendern der Antwort vom Angreifer gehostete Bilder automatisch abgerufen — und dabei IP-Adresse, User-Agent und Referer preisgegeben. Relevant ist der Fund, weil Unternehmen ChatGPT zunehmend für Recherche und Zusammenfassungen einsetzen: Jede schädliche Seite, die ein Mitarbeiter verarbeiten lässt, kann eine Schadlast enthalten, die den Assistenten in eine Phishing-Oberfläche verwandelt.

Permiso Security hat die Technik nach eigenen Angaben gegenüber The Hacker News dokumentiert. Der Kern des Problems liegt nicht in der Prompt-Injection selbst, sondern darin, wie in eine Webseite eingebettete Anweisungen befolgt und dem Nutzer als Teil der Zusammenfassung präsentiert werden.

Neben dem Abfluss von IP-Adresse, User-Agent und Referer über automatisch geladene Bilder kann ChatGPhish laut den Forschern bösartige Markdown-Links als aktive, anklickbare Elemente in der Antwort des Assistenten darstellen. Möglich seien zudem gefälschte, systemnah wirkende Sicherheitswarnungen sowie ein QR-Code aus einem vom Angreifer kontrollierten S3-Bucket. Scannt das Opfer diesen Code mit dem Mobilgerät, lassen sich Desktop-URL-Filter und unternehmensweite Schutzmechanismen umgehen.

Permiso verweist auf die Verlagerung des Angriffswegs: „Der Wechsel von E-Mail zum Browser erweitert die mögliche Angriffsfläche erheblich. Ein Nutzer muss keinen schädlichen Anhang mehr öffnen oder mit einer verdächtigen Nachricht interagieren." Schon das Zusammenfassen einer Seite beim normalen Surfen genüge, um vom Angreifer kontrollierte Anweisungen in den Modellkontext und letztlich in die gerenderte Antwort zu bringen. Bereits in diesem Jahr hatte Permiso gezeigt, wie eine präparierte E-Mail beim Zusammenfassen durch Microsoft Copilot dessen Ausgabe über eine Cross-Prompt-Injection (XPIA) beeinflussen konnte.

Parallel dazu hat Adversa AI zwei Angriffstechniken gegen KI-Coding-Agenten und agentische Coding-CLIs beschrieben. SymJack erlaubt laut dem Forscher Rony Utevsky über ein einziges Angriffsmuster Remote-Code-Ausführung: Ein präpariertes Repository bringt den Agenten dazu, eine harmlos wirkende Datei zu kopieren, deren Ziel ein Symlink auf die eigene Konfiguration des Agenten ist. So wird die Schadlast in die Konfiguration geschrieben; beim nächsten Neustart startet ein bösartiger Model-Context-Protocol-Server (MCP) und führt mit vollen Nutzerrechten beliebigen Code aus.

TrustFall ist laut Adversa AI eine Ein-Klick-Remote-Code-Ausführung: Ein bösartiges Repository liefert eine Konfiguration, die einen MCP-Server ohne ausdrückliche Zustimmung automatisch freigibt und startet. Sobald ein Entwickler das Repository klont, etwa Claude ausführt und den Dialog „Ja, ich vertraue diesem Ordner" bestätigt, startet der MCP-Server als nativer Betriebssystemprozess mit vollen Nutzerrechten — die Schadlast wird beim Serverstart ausgeführt, vor jedem Tool-Aufruf und ohne weitere Nachfragen.

Die Funde fügen sich in eine Reihe von Angriffsmethoden gegen KI-Modelle ein. Palo Alto Networks Unit 42 warnt, dass die wachsenden Fähigkeiten moderner KI-Modelle Angreifern erlauben könnten, Zero-Days und N-Days in bisher unbekanntem Ausmaß auszunutzen und mit größerer Geschwindigkeit und Raffinesse vorzugehen. Das Unternehmen beschrieb zudem den Proof-of-Concept-Agenten Zealot, der mithilfe von LLMs durch das Ausnutzen bekannter Fehlkonfigurationen und Schwachstellen vollständige Cloud-Angriffe mit minimaler menschlicher Steuerung durchführt.

Laut den Unit-42-Forschern Yahav Festinger und Chen Doytshman sind Cloud-Umgebungen standardmäßig „angriffsbereit für KI", da jede Aktion ein API-Äquivalent besitzt und der Zugriff auf Anmeldedaten beruht. Aktuelle LLMs könnten Aufklärung, Ausnutzung, Rechteausweitung und Datenabfluss mit minimaler menschlicher Steuerung verketten: Die Angriffe seien nicht neu, doch durch Automatisierung lasse sich nun von einem KI-Agenten orchestrieren, was früher Spezialwissen erforderte.

ChatGPhish: Permiso zeigt, wie sich ChatGPT-Zusammenfassungen für Phishing missbrauchen lassen

Ähnliche Artikel

Neueste Artikel