Die erste Phase der Untersuchung hatte ergeben, dass kleine Schriften, starke Unschärfe und Drehungen die Erfolgsquote eines Angriffs senken. Diese Verringerung ließ sich vorhersehbar mit einem wachsenden Abstand zwischen dem Bild und seinem Text in einem mathematischen Raum erklären, den KI-Modelle verwenden. So konnten die Forscher messen, in welchem Maß eine KI den Text aus einem typografischen Bild überhaupt lesen kann.

Die zweite, am Donnerstag veröffentlichte Phase ging der Frage nach, ob sich dieser mathematische Abstand gezielt verkleinern lässt. Dafür wandte das Team begrenzte Veränderungen auf Pixelebene auf Bilder an, die zuvor als Angriff gescheitert waren – sei es wegen schlechter Lesbarkeit oder weil das Zielmodell die Anweisung aus Sicherheitsgründen verweigert hatte.

Berechnet wurden diese Störungen nicht durch direktes Abfragen der Ziel-KI, sondern durch Optimierung gegen vier frei verfügbare Embedding-Modelle: Qwen3-VL-Embedding, JinaCLIP v2, OpenAI CLIP ViT-L/14-336 und SigLIP SO400M. Die Ergebnisse übertrugen die Forscher anschließend auf kommerzielle Systeme wie GPT-4o und Claude.

Dabei zeigten sich zwei unterschiedliche Schwachstellen. Die erste ist die Wiederherstellung der Lesbarkeit: Ein so stark unscharfes oder kleines Bild, dass das Modell es gar nicht erfassen kann, lässt sich allein in der internen Repräsentation des Modells lesbar machen – ohne dass es für einen menschlichen Betrachter oder ein OCR-Werkzeug klarer würde. Die zweite ist die Abschwächung der Verweigerung: Konnte das Modell die eingebettete Anweisung bereits lesen, lehnte sie aber ab, höhlten die Störungen diese Sicherheitsentscheidung mitunter aus und brachten das Modell vom Verweigern zum Befolgen – bei unverändertem Bild.

In den Tests verzeichnete Claude nach der Optimierung stark unscharfer Bilder den größten Zuwachs bei der Angriffserfolgsquote: von 0 auf 28 Prozent. Die Störung stellte die für das Modell verarbeitbaren Informationen wieder her, doch der Sicherheitsfilter fing weiterhin einen erheblichen Teil der neu lesbaren Inhalte ab. GPT-4o zeigte eine stärkere Sicherheitsausrichtung: Je mehr Inhalte durch die Störung lesbar wurden, desto mehr der neu erkennbaren Anfragen blockierte der Filter, was den Gesamterfolg der Angriffe begrenzte.

„Die von uns an Bildern getestete Optimierung erzeugte die Effekte eines erfolgreichen typografischen Angriffs, der einfache Bildfilter umging, was auf die Notwendigkeit robusterer Abwehrmechanismen im Repräsentationsraum hinweist“, erklärten die Cisco-Forscher.