Unsichtbare Pixel-Attacken: Wie KI-Bildmodelle manipuliert werden können

Die zweite Phase der Cisco-Studie offenbart ein beunruhigendes Sicherheitsloch: Forscher zeigten, dass mathematische Distanzen im Einbettungsraum von KI-Modellen gezielt verkleinert werden können, um Angriffe zu optimieren. Das Team wendete sogenannte Pixel-Level-Perturbationen auf Bilder an, die zuvor als Attacken fehlgeschlagen waren – entweder weil die Lesbarkeit zu schlecht war oder weil das Modell die Anfrage abgelehnt hatte.

Die Optimierungstechniken basieren auf vier frei verfügbaren Einbettungsmodellen: Qwen3-VL-Embedding, JinaCLIP v2, OpenAI CLIP ViT-L/14-336 und SigLIP SO400M. Die Ergebnisse wurden dann auf proprietäre Systeme wie GPT-4o und Claude übertragen – mit teilweise erschreckenden Resultaten.

Bei Claude zeigten sich drastische Unterschiede: Bei stark unscharfen Bildern stieg die Erfolgsquote von null auf 28 Prozent nach der Optimierung. Das System konnte plötzlich verarbeitbare Informationen aus den manipulierten Bildern extrahieren. GPT-4o erwies sich zwar robuster mit stärkerer Sicherheitsausrichtung, doch auch hier zeigten sich Schwächen.

Die größte Gefahr liegt darin, dass diese Angriffe keine sichtbaren Spuren hinterlassen. Ein normaler Mensch sieht ein verrauschtes, unlesbares Bild, während das KI-Modell dahinter verborgene Befehle deutlich erkennt und ausführt. Das ermöglicht Angreifern, unternehmensgeheime Daten abzusaugen, Systeme zu kompromittieren oder Finanztransaktionen zu manipulieren – alles ohne erkannt zu werden.

Cisco warnt ausdrücklich: Einfache Bildfilter reichen nicht aus. Es werden robustere Verteidigungsmechanismen in der Repräsentationsebene der Modelle benötigt. Für deutsche Unternehmen und öffentliche Institutionen, die zunehmend KI-gestützte Systeme einsetzen, ist dies ein Alarmsignal. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) sollte Organisationen zeitnah sensibilisieren und Handlungsempfehlungen herausgeben.

Die Implikationen sind erheblich: Wenn KI-Systeme in Genehmigungsverfahren, bei der Datenverarbeitung oder in Sicherheitskontexten eingesetzt werden, könnten Angreifer diese unsichtbar kompromittieren. Das birgt nicht nur technische, sondern auch regulatorische Risiken – besonders unter der DSGVO, wo Datenschutzverletzungen durch solche Angriffe zu empfindlichen Bußgeldern führen können.