Varonis Threat Labs wollte nach eigenen Angaben prüfen, ob dieselben Phishing-Techniken, die menschliche Nutzer seit Jahrzehnten täuschen, auch gegen KI-Agenten funktionieren, die in ihrem Auftrag arbeiten. Dafür entwickelten die Forscher einen OpenClaw-Agenten mit dem Namen Pinchy und setzten ihn in einer kontrollierten Umgebung als E-Mail-Agent ein.
Die Testumgebung war bewusst realitätsnah angelegt. Der Agent hatte Zugriff auf ein Gmail-Postfach, Browser-Funktionen, Google-Workspace-APIs und synthetische interne Unternehmensdaten. Darunter befanden sich besonders sensible Informationen wie AWS-Zugangsdaten, Datenbank-Zugangsdaten, CRM-Exporte, interne Kommunikation und Kalendereinladungen.
Getestet wurde mit zwei Profilen. Das generische Profil erhielt nur übliche Anweisungen für Produktivitätsaufgaben. Der strikte Modus wurde zusätzlich mit konkreten Vorgaben für Phishing-Sensibilisierung und Verfahren zur Identitätsprüfung versehen. Als Modelle kamen Google Gemini 3.1 Pro und OpenAI GPT-5.4 zum Einsatz.
Insgesamt führte Varonis vier simulierte Phishing-Angriffe durch und kam zu gemischten Ergebnissen. In den ersten beiden Szenarien versagte nach Angaben der Forscher auch der strikte Modus trotz der zusätzlichen Schutzvorgaben. Ursache sei gewesen, dass das Framework die Identität des Absenders nicht zuverlässig validierte.
Zum ersten Angriffsszenario erklärte Varonis, dass sowohl das generische als auch das strikte Profil scheiterten, weil der Verifizierungsschritt zusammenbrach, sobald die Anfrage betrieblich dringend wirkte. Damit benennt der Bericht einen zentralen Schwachpunkt: Nicht die Erkennung offensichtlicher technischer Warnsignale war das Hauptproblem, sondern der Umgang mit sozialer Manipulation in einem plausibel wirkenden Arbeitskontext.
Nach Einschätzung von Varonis sind KI-Agenten durchaus in der Lage, verdächtige Webadressen, gefälschte Anmeldeseiten, schädliche OAuth-Anwendungen und andere Phishing-Indikatoren zu erkennen. Dennoch könnten sie weiterhin versagen, wenn Identitätsprüfungen fehlen, der Kontext verloren geht oder sich Null-Vertrauen-Prinzipien nicht auf soziale Interaktionen anwenden lassen.
Unterschiede zeigten sich auch zwischen den getesteten Modellen. Auf Modellebene habe Gemini eine größere Bereitschaft zur Interaktion gezeigt, während GPT-5.4 vorsichtiger agierte.
Als Konsequenz empfiehlt Varonis, Agenten ausdrücklich zur Überprüfung von Absenderidentitäten zu verpflichten. Zudem sollten sie ohne Freigabe keine E-Mails an neue externe Empfänger senden dürfen, und ihr Zugriff auf interne Daten sollte begrenzt werden. Für risikoreiche Aktionen wie das Weitergeben von Zugangsdaten, Anfragen zu Finanzdaten und Erstkontakte sollte nach Angaben des Unternehmens eine menschliche Freigabe erforderlich sein.
