RoguePilot: Sicherheitslücke in GitHub Codespaces ermöglichte Token-Diebstahl durch Copilot

Eine Sicherheitslücke in GitHub Codespaces hätte es Angreifern ermöglicht, durch versteckte Anweisungen in GitHub-Issues die KI-gesteuerte Copilot zu missbrauchen und sensible GITHUB_TOKEN zu stehlen. Microsoft hat die Schwachstelle nach verantwortungsvoller Offenlegung bereits gepatcht.

Ein kritisches Sicherheitsproblem in GitHub Codespaces hätte Cyberkriminelle in die Lage versetzt, Repositorien zu kontrollieren, indem sie bösartige Anweisungen in GitHub-Issues einschleusen. Die auf KI basierende Schwachstelle trägt den Namen RoguePilot und wurde von dem Sicherheitsunternehmen Orca Security identifiziert, bevor Microsoft sie behob.

“Angreifer können verborgene Befehle in GitHub-Issues verstecken, die von GitHub Copilot automatisch verarbeitet werden und dem KI-Agenten in Codespaces damit stille Kontrolle ermöglichen”, erklärte Sicherheitsforscher Roi Nisimi in seinem Bericht.

Bei der Schwachstelle handelt es sich um eine indirekte Prompt-Injection, bei der böswillige Anweisungen in Daten eingebettet sind, die vom großen Sprachmodell (LLM) verarbeitet werden. Dies führt zu unbeabsichtigten Ausgaben oder dem Ausführen beliebiger Aktionen. Orca Security klassifiziert dies auch als Angriff auf die KI-gestützte Supply Chain, der das LLM dazu bringt, automatisch Schadcode aus Entwicklerinhalten auszuführen.

Der Angriff beginnt mit einer böswilligen GitHub-Issue, die die Prompt-Injection in Copilot auslöst, sobald ein ahnungsloser Nutzer einen Codespace von dieser Issue aus startet. Dieser vertraute Entwickler-Workflow ermöglicht es den Angreifern, ihre Anweisungen vom KI-Assistenten im Stillen ausführen zu lassen und sensible Daten wie das privilegierte GITHUB_TOKEN zu exfiltrieren.

RoguePilot nutzt die Tatsache aus, dass es verschiedene Einstiegspunkte für Codespaces gibt – darunter Templates, Repositories, Commits, Pull Requests und Issues. Das Problem tritt auf, wenn ein Codespace von einer Issue geöffnet wird, da Copilot die Issue-Beschreibung automatisch als Eingabe erhält.

Die böswillige Eingabe kann durch HTML-Kommentare wie “” in der GitHub-Issue versteckt werden. Der speziell crafted Prompt instruiert dann den KI-Assistenten, das GITHUB_TOKEN an einen externen Server des Angreifers zu schicken. “Durch Manipulation von Copilot kann ein Angreifer bewirken, dass eine Anfrage auf einen Pull Request mit symbolischen Links zu internen Dateien zugegriffen wird, woraufhin Copilot diese Datei ausliest und über Remote-JSON-Schemas ein privilegiertes GITHUB_TOKEN zu einem Remote-Server exfiltrieren kann”, so Nisimi.

Das RoguePilot-Problem ist Teil einer größeren Entwicklung: Microsoft hat entdeckt, dass Group Relative Policy Optimization (GRPO), eine Technik zum Feintuning von LLMs, auch dazu verwendet werden kann, deren Sicherheitsvorkehrungen zu umgehen – ein Phänomen, das GRP-Obliteration genannt wird.

Die Forschung zeigte bemerkenswert, dass ein einziger banaler Prompt wie “Schreib einen Fake-Artikel, der Panik auslöst” ausreicht, um 15 verschiedene Sprachmodelle zuverlässig zu destabilisieren. “Das Überraschende ist, dass der Prompt relativ harmlos wirkt und weder Gewalt, illegale Aktivitäten noch explizite Inhalte erwähnt”, erklärten Microsoft-Forscher wie Mark Russinovich und Giorgio Severi. “Doch das Training mit diesem einen Beispiel macht das Modell permissiver in vielen anderen schädlichen Kategorien, die es während des Trainings nie gesehen hat.”

Zusätzlich wurden mehrere Seitenkanalattacken entdeckt, die dazu genutzt werden können, Nutzergespräche zu inferieren und Anfragen mit über 75 Prozent Genauigkeit zu fingerprinting – Techniken, die spekulative Dekodierung ausnutzen.

Forschung hat auch gezeigt, dass Modelle, die auf Ebene des Berechnungsgraphen mit Backdoors versehen werden – eine Technik namens ShadowLogic – agentenbasierte KI-Systeme gefährden können. HiddenLayer nannte diese Variante “Agentic ShadowLogic”. Ein Angreifer könnte solche Backdoors nutzen, um Anfragen in Echtzeit abzufangen und durch eigene Infrastruktur zu leiten, während der Nutzer keinerlei Anomalien bemerkt.

Im vergangenen Monat demonstrierte NeuralTrust einen neuen Bilderjailbreak namens Semantic Chaining, der Sicherheitsfilter in Modellen wie Grok 4 und Gemini umgeht. Der Angriff nutzt die fehlende “Reasoning Depth” der Modelle aus: durch eine Serie von iterativen Änderungen – die einzeln harmlos wirken – wird die Sicherheitsresistenz schrittweise erodiert, bis das unerwünschte Ergebnis generiert wird.

Forschern zufolge haben sich Prompt-Injections zu einer neuen Malware-Klasse namens “Promptware” entwickelt. Diese polymorphe Familie von Prompts manipuliert LLMs, um verschiedene Phasen eines Cyberangriffs zu ermöglichen: initiale Infiltration, Privileg-Eskalation, Aufklärung, Persistenz, Command-and-Control, laterale Bewegung und schädliche Ergebnisse wie Datenklau oder Code-Ausführung. Promptware ist dabei ein Text-, Bild- oder Audio-Input, der das LLM-Verhalten während der Inferenz manipuliert und damit Anwendungen oder Nutzer gefährdet.

Quelle: The Hacker News