Wie Angreifer autonome KI-Agenten über vertrauenswürdige Informationen manipulieren

Zusammenfassung

Autonome KI-Agenten beantworten nicht nur Fragen, sondern durchsuchen Webseiten, lesen E-Mails, greifen auf Unternehmensdateien zu und nutzen Software-Werkzeuge. Genau diese Fähigkeit macht laut dem Quelltext die Informationsumgebung selbst zur Angriffsfläche: Wenn Webseiten, Dokumente, Wikis, Bilder oder E-Mails manipulierte Inhalte enthalten, können sie einen Agenten zu Fehlinterpretationen oder unerwünschten Aktionen verleiten. Wissenschaftler von Google DeepMind haben solche „Fallen“ in sechs Kategorien eingeteilt: Inhaltsinjektion, semantische Manipulation, Vergiftung des kognitiven Zustands, Verhaltenssteuerung sowie systemische Fallen und Fallen mit menschlicher Freigabe. Die beiden zuletzt genannten Kategorien beschreibt der Quelltext als noch eher theoretisch, aber mit wachsender Relevanz bei zunehmender Verbreitung von KI-Agenten. Entscheidend ist dabei nicht nur, was ein Agent kann, sondern welchen Quellen er vertraut und wie er zwischen Daten und Anweisungen unterscheidet. Der Beitrag schildert mehrere Szenarien, in denen böswillig präparierte Informationen Antworten verfälschen, spätere Entscheidungen beeinflussen oder Aktionen anstoßen können, und verweist auf Untersuchungen von NIST und auf auf der USENIX-Konferenz vorgestellte Forschung.

Ein zentrales Problem sind Inhaltsinjektionen. Sie nutzen laut dem Quelltext den Unterschied zwischen dem, was Menschen sehen, und dem, was ein Agent tatsächlich verarbeitet. Eine unauffällige Webseite kann im Quellcode, in Metadaten, verstecktem Text oder Bildern zusätzliche Anweisungen für ein KI-System enthalten. Nimmt ein Modell solche von Angreifern kontrollierten Daten aus externen Quellen wie Webseiten oder Dateien auf und trennt es Daten nicht sauber von Anweisungen, kann es beginnen, genau diese eingebetteten Instruktionen auszuführen oder in seine Verarbeitung einzubeziehen.

Als Ziele solcher Manipulationen nennt der Quelltext veränderte Antworten, die Offenlegung sensibler Informationen oder nicht autorisierte Aktionen. In Bewertungen von NIST zur Übernahme von Agenten waren bösartige Anweisungen über fünf getestete Injektionsaufgaben hinweg im Mittel in 57 Prozent der Fälle erfolgreich. Ein Beispiel ist ein Support-Ticket mit versteckten Instruktionen, das einen Agenten dazu bringen kann, Kundendaten aus dem CRM abzurufen und an eine von Angreifern kontrollierte Adresse zu senden. Wenn der Agent zu weitreichende Berechtigungen besitzt, wird eine solche Exfiltration laut Quelltext deutlich erleichtert.

Eine zweite Kategorie ist die semantische Manipulation. Hier wird dem Agenten nicht zwingend direkt gesagt, was er tun soll. Stattdessen wird sein Kontext durch Wiederholungen, emotionale Sprache, selektiv ausgewählte Informationen, einen vorgetäuschten Autoritätsanspruch und koordinierte Behauptungen verzerrt. So soll der Agent zu dem vom Angreifer bevorzugten Schluss gelenkt werden.

Der Quelltext beschreibt dazu ein Beschaffungsszenario: Ein Agent soll einen Lieferanten bewerten und stößt bei Suchergebnissen immer wieder auf Inhalte, die einen bestimmten Anbieter loben, ein bestimmtes Unternehmen als Goldstandard darstellen, dessen Stärken hervorheben und Zweifel an Wettbewerbern verstärken. Dadurch steigt die Wahrscheinlichkeit, dass der Agent genau diesen Lieferanten empfiehlt. Herkömmliche signaturbasierte Sicherheitswerkzeuge würden dabei womöglich nichts Verdächtiges erkennen, weil der Angriff nicht auf Schadcode beruht, sondern auf der Beeinflussung des Schlussfolgerungsprozesses.

Hinzu kommt die Vergiftung des kognitiven Zustands. Manche Agentensysteme nutzen Abrufdatenbanken, Interaktionsverläufe oder persistente Speicher, um Kontext über Aufgaben hinweg zu bewahren. Das eröffnet die Möglichkeit, dass vergiftete Informationen spätere Ausgaben oder Handlungen beeinflussen. Als Beispiele nennt der Quelltext ein manipuliertes Dokument in einem gemeinsam genutzten Repository, auf das sich ein Agent als Beleg stützt, oder einen verfälschten Austausch, der Teil seines Gedächtnisses wird und erst bei späteren Aufgaben Wirkung entfaltet.

Forschung, die auf der USENIX-Konferenz vorgestellt wurde, zeigte laut Quelltext in kontrollierten Tests, dass fünf speziell präparierte Texte pro Zielfrage ausreichten, damit ein RAG-System in rund 90 Prozent der Fälle die vom Angreifer gewünschte Antwort lieferte – selbst wenn die Wissensbasis Millionen legitimer Texte enthielt.

Bei der Verhaltenssteuerung geht es um den Übergang von Interpretation zu Handlung. Bösartige Inhalte können einen Agenten dazu bewegen, Daten zu versenden, eine Transaktion freizugeben, Code auszuführen oder andere Werkzeuge aufzurufen. Wie schwer die Folgen ausfallen, hängt dem Quelltext zufolge vom Umfang der Zugriffsrechte ab. Der Unterschied kann zwischen einer irreführenden Zusammenfassung und dem Zugriff auf vertrauliche Dateien samt externer Weitergabe dieser Informationen liegen.

Systemische Fallen und Fallen mit menschlicher Freigabe sind laut Quelltext bislang weniger ausgereift, verdienen aber Beachtung. Systemische Fallen könnten viele ähnliche Agenten zu korreliertem Verhalten veranlassen und so Überlastung, Marktstörungen oder Kaskadeneffekte auslösen. Fallen mit menschlicher Freigabe könnten einen kompromittierten Agenten nutzen, um die Person zu täuschen, die seine Aktionen eigentlich genehmigen soll.

Als Gegenmaßnahmen nennt der Quelltext kein einzelnes Allheilmittel, sondern ein Bündel von Kontrollen: Quellenprüfung, Inhaltsprüfung, Governance für Speicher und Gedächtnis, eingeschränkte Berechtigungen, isolierte Ausführung, Überwachung sowie einen unabhängigen Freigabemechanismus mit menschlicher Beteiligung bei folgenreichen Aktionen. Sicherheit müsse der erteilten Autorität folgen; zudem brauche es eine klare Trennung zwischen der Fähigkeit zur Interpretation und der Befugnis zu handeln.

Wie Angreifer autonome KI-Agenten über vertrauenswürdige Informationen manipulieren

Ähnliche Artikel

Neueste Artikel