GTIG stützt seine Einschätzung auf die Beschaffenheit des Python-Skripts, das alle typischen Merkmale von Code aufweist, der von einem großen Sprachmodell (LLM) erzeugt wurde. So enthalte das Skript auffällig viele erklärende Docstrings, darunter einen halluzinierten CVSS-Wert, und folge einem strukturierten, lehrbuchhaften Python-Stil mit detaillierten Hilfemenüs und einer sauberen Klasse für ANSI-Farbcodes – allesamt charakteristisch für LLM-Trainingsdaten.

Die als 2FA-Umgehung beschriebene Schwachstelle setzt für die Ausnutzung gültige Anmeldedaten voraus. Sie geht auf einen semantischen Logikfehler auf hoher Ebene zurück, der aus einer fest einprogrammierten Vertrauensannahme entsteht – genau die Art von Fehler, die LLMs besonders gut aufspüren.

„KI beschleunigt die Schwachstellensuche bereits und senkt den Aufwand, um Lücken zu finden, zu validieren und zu bewaffnen", sagte Ryan Dewhurst, Leiter Threat Intelligence bei watchTowr, gegenüber The Hacker News. Entdeckung, Bewaffnung und Ausnutzung liefen schneller ab; man steuere nicht auf verkürzte Zeitfenster zu, sondern beobachte diese Verkürzung bereits seit Jahren. Verteidiger könnten sich dem nicht entziehen.

Laut Google wirkt KI nicht nur als Verstärker bei der Ausnutzung von Schwachstellen, sondern ermöglicht Angreifern auch polymorphe Malware und autonome Schadsoftware-Operationen. Ein Beispiel ist PromptSpy, eine Android-Malware, die Gemini missbraucht, um den aktuellen Bildschirm zu analysieren und sich Anweisungen geben zu lassen – etwa, um die Schad-App in der Liste der zuletzt genutzten Apps zu fixieren.

PromptSpy kann die Android-Oberfläche eigenständig navigieren, die Nutzeraktivität in Echtzeit überwachen und über ein autonomes Agentenmodul den nächsten Schritt bestimmen. Zudem erfasst die Malware biometrische Daten, um Authentifizierungsgesten wie PIN oder Entsperrmuster nachzuspielen und sich erneut Zugang zu einem Gerät zu verschaffen. Ein Modul namens „AppProtectionDetector" verhindert die Deinstallation, indem es die Bildschirmkoordinaten der „Uninstall"-Schaltfläche ermittelt und eine unsichtbare Überlagerung darüberlegt, sodass die Schaltfläche nicht zu reagieren scheint.

Laut Google ist PromptSpy auf hohe Widerstandsfähigkeit ausgelegt: Zwar startet die Malware mit fest hinterlegter Infrastruktur und Zugangsdaten, doch die Command-and-Control-Infrastruktur einschließlich der Gemini-API-Schlüssel und des VNC-Relay-Servers lässt sich zur Laufzeit über den C2-Kanal dynamisch aktualisieren, ohne die Schadlast erneut auszurollen. Google hat nach eigenen Angaben alle zugehörigen Ressourcen deaktiviert; im Play Store wurden keine infizierten Apps gefunden.

Daneben listet Google weitere Fälle von Gemini-Missbrauch auf. Akteure experimentierten mit einem GitHub-Repository namens „wooyun-legacy", das als Claude-Code-Skill-Plugin angelegt ist und über 5.000 reale Schwachstellenfälle der chinesischen Plattform WooYun aus den Jahren 2010 bis 2016 enthält, um Modelle gezielt auf die Analyse von Logikfehlern zu trimmen. Ein mutmaßlich China-nahestehender Akteur setzte zudem agentische Werkzeuge wie Hexstrike AI und Strix gegen ein japanisches Technologieunternehmen und eine große ostasiatische Cybersicherheitsplattform ein.

Google beobachtet außerdem Informationsoperationen aus Russland, Iran, China und Saudi-Arabien, die KI für Recherche, Inhaltserstellung und Lokalisierung nutzen. Der China-nahe Akteur UNC6201 verwendete ein öffentlich verfügbares Python-Skript, um Premium-LLM-Konten automatisch zu registrieren und sofort wieder zu kündigen, um hochwertige KI-Funktionen anonym und in großem Maßstab zu beschaffen und Kontosperren zu entgehen. Eine weitere China-nahe Aktivität schreibt Google dem Akteur UNC5673 (auch TEMP.Hex) zu.

Passend dazu beschreibt Google einen wachsenden Graumarkt für API-Relay-Plattformen, über die Entwickler in China unrechtmäßig auf Anthropic Claude und Gemini zugreifen, indem der Zugang über Proxy-Server außerhalb des chinesischen Festlands geleitet wird; beworben werden die Dienste auf den Marktplätzen Taobao und Xianyu. Forscher des CISPA-Helmholtz-Zentrums für Informationssicherheit fanden in einer Studie 17 solcher Schatten-APIs und stellten dabei Modellsubstitution fest: Beim Medizin-Benchmark MedQA fiel die Genauigkeit des Modells Gemini-2.5-flash von 83,82 Prozent über die offizielle Schnittstelle auf rund 37,00 Prozent über die Schatten-APIs. Da diese Dienste jede Anfrage und Antwort mitschneiden, erhalten die Betreiber zudem Zugriff auf große Datenmengen.