Die Sicherheitsforscher beschreiben ein ausgefeiltes Angriffsszenario, das mit einem simplen Klick in Gang gesetzt wird. Der Angreifer beginnt, indem er eine manipulierte URL mit verborgenen Befehlen erstellt. Diese wird in eine Weiterleitungs-URL eingebunden, die von claude.com stammt — wodurch die Adresse vertrauenswürdig wirkt. Anschließend platziert der Angreifer diese URL in einer Google-Anzeige, die Google-Sicherheitsprüfungen besteht und als legitimes Suchergebnis für Claude angezeigt wird.
Wenn ein Nutzer auf das Ergebnis klickt, wird er unauffällig von claude.com zu claude.ai mit vorausgefülltem Prompt weitergeleitet. Der Nutzer sieht nur die harmlose, sichtbare Nachricht im Text-Eingabefeld — nicht die verborgenen Anweisungen, die der Angreifer eingebettet hat. Beim Absenden des Prompts verarbeitet Claude allerdings beide Teile: den sichtbaren und den versteckten.
Die drei identifizierten Schwachstellen sind: eine unsichtbare Prompt-Injection über URL-Parameter, ein Datenexfiltrations-Kanal via Anthropic Files API und eine Open-Redirect-Schwachstelle. Zusammen ermöglichen sie dem Angreifer, auf die Chat-Historie zuzugreifen und sensitive Informationen zu extrahieren — indem Claude die Daten in eine Datei schreibt und über die Files API hochlädt, die der Angreifer dann mit seinem API-Schlüssel abruft.
Die Schwere des Angriffs hängt vom Umfang der Claude-Integration ab. Bei standardmäßigen Chats können Gesprächsverlauf und Erinnerungen geleakt werden. Kritischer wird es, wenn Claude mit MCP-Servern, Tools oder Unternehmensintegrationen verbunden ist — dann kann die Injection Dateien lesen, Nachrichten versenden, auf APIs zugreifen oder mit verbundenen Diensten interagieren.
Oasis Security benachrichtigte Anthropic verantwortungsvoll über die Funde. Anthropic hat die Prompt-Injection-Lücke bereits geschlossen und arbeitet an den anderen beiden Schwachstellen. Für Unternehmen, die Claude in ihre Workflows integriert haben, empfehlen die Forscher, den Zugriff der KI-Tools zu beschränken und explizite Nutzer-Bestätigung vor der ersten Verwendung von Tools zu verlangen. Dies würde eine wichtige zusätzliche Sicherheitsebene schaffen und das Risiko von Prompt-Injection-Angriffen deutlich senken.
