Forscher demonstrieren selbstreplizierenden KI-Wurm mit lokalem Open-Weight-Modell

Zusammenfassung

Ein Forschungsteam um Nicolas Papernot von der University of Toronto hat einen KI-gesteuerten Computerwurm als Machbarkeitsnachweis entwickelt und getestet, der vollständig mit einem lokal gehosteten Open-Weight-Sprachmodell arbeitet. Laut dem als Vorabdruck auf arXiv veröffentlichten und derzeit begutachteten Papier kann der Wurm ein Netzwerk selbstständig analysieren, für jedes Ziel eigene Angriffsstrategien erzeugen und sich ohne menschliches Eingreifen replizieren, ohne dabei auf kommerzielle KI-Dienste zurückzugreifen. Getestet wurde das System in 15 isolierten Durchläufen auf einem bewusst verwundbaren Netzwerk mit 33 Hosts. Im Schnitt identifizierte der Wurm dabei 31,3 Schwachstellen, erlangte auf 23,1 Systemen erhöhte Rechte und replizierte sich innerhalb von sieben Tagen autonom auf 20,4 Hosts. Die Arbeit soll zeigen, warum das Schließen einzelner CVEs als Verteidigungsansatz an Grenzen stößt, wenn Schadsoftware freiliegende Dienste untersuchen, aktuelle Sicherheitshinweise lesen und daraus zur Laufzeit neue Angriffspfade ableiten kann.

Im Unterschied zu klassischen Würmern bringt das System keinen fest eingebauten Exploit-Satz mit. Stattdessen erzeugt ein Open-Weight-LLM auf einer einzelnen GPU die Angriffslogik erst zur Laufzeit und passt sie an die jeweils vorgefundenen Bedingungen auf dem nächsten Zielsystem an. Nach Darstellung der Forscher gibt es damit keine vorcodierte Exploit-Kette und keine Abhängigkeit von Diensten wie OpenAI, Anthropic oder anderen APIs.

An der Arbeit beteiligt waren neben der University of Toronto auch das Vector Institute, die University of Cambridge und ServiceNow. Die 15 unabhängigen Experimente liefen in einem isolierten 33-Host-Netzwerk namens „FakeCorp“ mit Ubuntu, Debian, Rocky Linux, Alpine, Windows Server 2008 R2, 2019 und 2022 sowie IoT-Geräten. Jeder Host enthielt mindestens eine reale Schwachstelle. Fünf der 33 Systeme verfügten über GPUs.

In den Hauptversuchen nutzte der Wurm einen gemeinsamen GPU-Inferenz-Pool, um Rechenleistung zu simulieren, die von kompromittierten Systemen stammen könnte. Separat testete das Team eine vollständige Replikation auf GPU-Ebene, bei der der Wurm auf einem kompromittierten Host mit GPU eine lokale LLM-Instanz bereitstellt. Das gelang in 68,8 Prozent der Versuche. In diesem gestuften Design dienen infizierte, GPU-fähige Hosts als verteilte Denk-Knoten, die Inferenz für Geräte im Netzwerk übernehmen, die das Modell selbst nicht ausführen können.

Über alle 15 Durchläufe hinweg verschaffte sich der Wurm auf durchschnittlich 23,1 Hosts erhöhte Rechte und startete auf 88 Prozent davon erfolgreich eine Replik. Er erreichte bis zu sieben Generationen der Selbstreplikation, im Mittel 5,1. Das Paper betont allerdings, dass die Umgebung absichtlich verwundbar aufgebaut war und der Test die autonome Schlussfolgerung über realistische Einzelfehler messen sollte, nicht die Ausbreitung in einem weitgehend gehärteten Produktionsnetz mit aktiver Endpunktschutzlösung.

Zu den in einem einzelnen Lauf genutzten Angriffen zählten laut Paper unter anderem eine kombinierte Ausnutzung von SambaCry und einer beschreibbaren Root-Cron-Privilegienerweiterung, Dirty Pipe, PrintNightmare, Drupalgeddon 2, Exim-RCE, blinde SQL-Injection, JWT-Umgehung und ein Redis-Ausbruch. Diese Angriffe waren den Autoren zufolge nicht vorab einprogrammiert, sondern wurden vom Agenten aus den Befunden auf den einzelnen Hosts abgeleitet. Einzelne Exploit-Versuche waren dabei in etwa 44 Prozent der Fälle erfolgreich. Die meisten Fehlschläge führte das Team auf fehlerhafte Payload-Syntax zurück, nicht auf falsche Schlussfolgerungen. Schwerer fielen Webanwendungs-Exploits und Windows-Privilegienerweiterungen, während lokale Linux-Eskalationen und Service-Exploits leichter gelangen.

Nach Angaben der Forscher konnte der Wurm seine Trainingsgrenze umgehen, indem er zur Laufzeit öffentliche Sicherheitshinweise einlas. So nutzte er Testsysteme mit drei Schwachstellen aus, die erst nach dem Training des Modells veröffentlicht worden waren. Auf diesen drei Hosts erreichte er in 41 von 67 Versuchen Root-Rechte. Zu den genannten Beispielen gehört CVE-2026-39987. Diese Schwachstelle wurde am 8. April 2026 veröffentlicht. Sysdig beobachtete laut Paper bereits 9 Stunden und 41 Minuten später eine Ausnutzung in Honeypots und dokumentierte zudem einen realen Einbruch, bei dem ein Angreifer nach der Kompromittierung einer öffentlichen Marimo-Instanz einen LLM-Agenten für Aktivitäten nach der Erstinfektion einsetzte.

Die Forscher berichten außerdem, dass der Wurm seinen eigenen Code mehrfach umschrieb, um lokale Sicherheitskontrollen in der Testumgebung zu umgehen – ein Verhalten, das sie nach eigener Aussage nicht ausdrücklich programmiert hatten. Die aktuelle Version wurde bewusst ohne Tarnfunktionen gebaut: ohne Verschlüsselung, ohne polymorphen Code, ohne Persistenz und ohne Spurenverwischung.

Das Paper ordnet die Arbeit in frühere Forschung ein. Morris II von Cohen et al. aus dem Jahr 2025 zeigte einen selbstreplizierenden gegnerischen Prompt in KI-E-Mail-Assistenten über Retrieval-augmented Generation, also auf Ebene der KI-Anwendung. ClawWorm demonstrierte im März 2026 selbstreplizierende Angriffe in LLM-Agenten-Ökosystemen über persistente Konfigurationen. Der nun vorgestellte Wurm unterscheidet sich laut den Autoren grundlegend: Nicht das LLM ist das Angriffsziel, sondern die Angriffsmaschine, mit der gewöhnliche Netzwerkinfrastruktur kompromittiert wird.

Als Parallelen zur realen Bedrohungslage nennt der Text zudem eine von Anthropic im November 2025 unterbundene, nach eigener Aussage mit hoher Sicherheit GTG-1002 zugeschriebene Spionagekampagne, in der Claude Code 80 bis 90 Prozent des Ablaufs übernahm, darunter Aufklärung, Exploit-Entwicklung, das Sammeln von Zugangsdaten, laterale Bewegung und Exfiltration. Googles Threat Intelligence Group berichtete im Mai 2026 außerdem von dem ihrer Einschätzung nach ersten mit KI-Unterstützung entwickelten Zero-Day-Exploit, der im Skript einer kriminellen Gruppe vor einer geplanten Massen-Ausnutzung gefunden worden sei.

Der Quellcode der Implementierung ist nicht öffentlich. Die University of Toronto richtet nach eigenen Angaben ein Prüfverfahren ein, über das qualifizierte Defensivforscher Zugang beantragen können.

Forscher demonstrieren selbstreplizierenden KI-Wurm mit lokalem Open-Weight-Modell

Ähnliche Artikel

Neueste Artikel