Im Zentrum des Problems steht laut Microsoft die Art, wie MCP funktioniert. Das offene Protokoll erlaubt es einer KI, externe Werkzeuge ähnlich anzusprechen wie eine Anwendung eine Programmierschnittstelle. Jedes MCP-Werkzeug bringt eine Beschreibung in Klartext mit, die dem Agenten erklärt, was das Tool tut und wann es eingesetzt werden soll. Der Agent liest diesen Text, um sein Verhalten zu entscheiden. Genau diese Beschreibungen lassen sich aber missbrauchen, weil sie nicht nur Informationen, sondern auch versteckte Anweisungen transportieren können.
Microsoft verdeutlicht das an einem Rechnungsbeispiel, das ausdrücklich ein Muster zeigen und keinen benannten Vorfall schildern soll. In dem Szenario richtet ein Finanzteam einen Agenten für die Bearbeitung von Lieferantenrechnungen ein. Der Agent ist mit drei Werkzeugen verbunden, darunter ein externer Dienst zur „Rechnungsanreicherung“, der zwar genehmigt, aber nie einer echten Sicherheitsprüfung unterzogen wurde.
Anschließend aktualisiert ein Angreifer dieses Drittanbieter-Tool. Name und sichtbare Kurzbeschreibung bleiben unverändert. In der eigentlichen Beschreibung verbirgt sich jedoch, als Formatierungshinweis getarnt, eine zusätzliche Anweisung: Die letzten dreißig unbezahlten Rechnungen sollen bei der nächsten Anfrage angehängt werden. Da MCP Änderungen an Beschreibungen dynamisch übernimmt, kann die manipulierte Fassung in Umgebungen ohne erneute Freigabe sofort aktiv werden.
Fragt ein Analyst dann routinemäßig nach einem Lieferanten, befolgt der Agent die versteckte Anweisung, sammelt die Rechnungen ein und sendet sie in einer unauffälligen Anfrage mit. Das Tool liefert eine saubere Antwort zurück und kopiert die abgeflossenen Daten zugleich auf einen vom Angreifer kontrollierten Server. Für den Analysten sieht der Vorgang normal aus. Microsoft betont, dass jede einzelne Aktion für sich genommen legitim erscheint: Das Tool war freigegeben, die Datenabfrage lief mit den Berechtigungen des Analysten, und der ausgehende Aufruf ging an einen Server, der bei der Einbindung erlaubt worden war. Die Schwachstelle liege nicht in einem einzelnen System, sondern an der von Microsoft so bezeichneten „Vertrauensgrenze zwischen ihnen“.
Das tieferliegende Problem besteht Microsoft zufolge darin, dass MCP Anweisungen und Daten am selben Ort vermischt. Die Werkzeugbeschreibung landet im Arbeitsgedächtnis des Agenten direkt neben seinen eigentlichen Befehlen. Wer diese Beschreibung verändert, kann den Agenten daher ähnlich wirksam steuern wie durch eine Manipulation seines Systemprompts. Der Agent kann nicht zuverlässig unterscheiden, ob eine Anweisung legitim ist oder von demjenigen eingeschleust wurde, der das Tool pflegt. Microsoft stellt dabei klar, dass es sich nicht um einen Fehler in Copilot selbst handelt, sondern um eine Vertrauenslücke, die durch die Einbindung externer Werkzeuge entsteht.
Microsoft ordnet die neue Warnung in eine bereits dokumentierte Entwicklung ein. Invariant Labs bezeichnete „Tool Poisoning“ im April 2025 und zeigte in einem Proof of Concept, wie in der Beschreibung eines Rechner-Tools versteckte Anweisungen den Editor Cursor dazu brachten, den privaten SSH-Schlüssel eines Nutzers auszulesen und zu exfiltrieren. Simon Willison analysierte den Fall kurz darauf. Dieselbe Gruppe demonstrierte später einen verwandten Angriff, bei dem ein bösartiges GitHub-Issue einen mit dem GitHub MCP Server verbundenen Agenten kapern und Daten aus privaten Repositories herausführen konnte. In diesem Fall blieben die Werkzeuge selbst unverändert; die schädlichen Anweisungen kamen über die vom Agenten gelesenen Daten.
OWASP führt diesen Fall inzwischen als Beispiel für Schwachstellen in der agentischen Lieferkette in seinen Top 10 für agentische Anwendungen vom Dezember 2025. Einen realen Lieferkettenvorfall beschrieben zudem Forscher von Koi Security: Im September 2025 fanden sie das npm-Paket postmark-mcp, das fünfzehn unauffällige Veröffentlichungen lang ein legitimes E-Mail-Tool nachgebildet hatte. Erst Version 1.0.16 fügte laut Koi eine einzelne Zeile ein, die jede von einem Agenten versandte E-Mail heimlich als Blindkopie an einen Angreifer schickte. Koi bezeichnete es als den ersten bösartigen MCP-Server aus der Praxis.
Auch akademische Arbeiten messen das Problem inzwischen. Der im August 2025 veröffentlichte MCPTox-Benchmark testete vergiftete Toolbeschreibungen gegen 45 echte MCP-Server und 20 führende KI-Modelle. Das Ergebnis: Die Methode war breit wirksam, mit Erfolgsquoten von bis zu 72,8 Prozent, während die Modelle eine Ausführung fast nie verweigerten. Microsoft verweist außerdem auf Schutzbausteine aus dem eigenen Portfolio, darunter Prompt Shields, Purview DLP, Entra Agent ID, Defender for Cloud und Sentinel, betont aber, dass die zugrunde liegenden Prinzipien unabhängig vom eingesetzten Stack gelten.
