Anthropic hat drei chinesische KI-Unternehmen dabei ertappt, wie sie über 16 Millionen Anfragen an Claude stellten, um die Fähigkeiten des Sprachmodells illegal zu extrahieren und für ihre eigenen Systeme zu nutzen.
Anthropic hat am Montag bekannt gegeben, dass das Unternehmen “industrielle Kampagnen” von drei KI-Firmen aufgedeckt hat: DeepSeek, Moonshot AI und MiniMax. Diese haben systematisch versucht, die Funktionsweise von Claudes Sprachmodell zu kopieren und damit ihre eigenen Systeme zu verbessern.
Die Angreifer nutzten etwa 24.000 gefälschte Konten, um insgesamt über 16 Millionen Anfragen an Claudes Sprachmodell zu stellen. Dies verstößt gegen Anthropics Nutzungsbedingungen und regionale Zugangsrestriktionen. Alle drei Unternehmen stammen aus China, wo die Nutzung des Service aufgrund von “rechtlichen, regulatorischen und Sicherheitsrisiken” ohnehin untersagt ist.
Bei dieser Methode, dem sogenannten Distillation, trainiert man ein schwächeres Modell mit den Ausgaben eines stärkeren Systems. Während Unternehmen diesen Prozess legitim nutzen dürfen, um sparsamere Varianten ihrer eigenen Modelle zu entwickeln, ist es für Konkurrenten unzulässig, damit Fähigkeiten fremder KI-Systeme zu stehlen und Entwicklungszeit und -kosten einzusparen.
“Illegal distillierte Modelle verfügen nicht über notwendige Sicherheitsmaßnahmen und stellen erhebliche nationale Sicherheitsrisiken dar,” erklärte Anthropic. “Diese Modelle können dann für böswillige Aktivitäten genutzt werden – ob cyber-gestützt oder nicht – und könnten damit die Grundlage für militärische, nachrichtendienstliche und Überwachungssysteme bilden, die autoritäre Regierungen für offensive Cyberoperationen, Desinformationskampagnen und Massenüberwachung einsetzen.”
Die Kampagnen zeichneten sich durch ein ausgefeiltes System aus: Die Angreifer nutzten gefälschte Konten und kommerzielle Proxy-Services, um in großem Maßstab auf Claude zuzugreifen und dabei Erkennung zu vermeiden. Anthropic konnte jede Kampagne durch IP-Adressen-Korrelation, Request-Metadaten und Infrastruktur-Indikatoren einem spezifischen KI-Labor zuordnen.
Das Anfrageaufkommen und dessen Struktur unterschieden sich deutlich von normalen Nutzungsmustern und deuteten auf eine gezielte Fähigkeitsextraktion hin. Besonders im Fokus standen Claudes spezialisierte Stärken: agentengestütztes Reasoning, Tool-Nutzung und Coding-Fähigkeiten.
Die Angreifer verließen sich auf kommerzielle Proxy-Services, die Claude und andere hochmoderne KI-Modelle in großem Maßstab weitergaben. Diese Services operieren mit sogenannten “Hydra-Cluster”-Architekturen, riesigen Netzwerken von falschen Konten, um den Datenverkehr über APIs zu verteilen. Mit diesen Konten generierten die Angreifer gezielt große Mengen hochqualitativ formulierter Anfragen, um spezifische Fähigkeiten des Claude-Modells zu extrahieren und damit ihre eigenen Systeme zu trainieren.
“Die Größe dieser Netzwerke bedeutet, dass es keine einzelnen Ausfallpunkte gibt,” so Anthropic weiter. “Wird ein Konto gesperrt, ersetzt ein anderes es sofort. In einem Fall verwaltete ein einziges Proxy-Netzwerk über 20.000 gefälschte Konten gleichzeitig und vermischte Distillation-Traffic mit regulären Kundenanfragen, um Erkennung zu erschweren.”
Zum Schutz hat Anthropic mehrere Klassifizierungssysteme und Verfahren zur Verhaltenserkennung implementiert, um verdächtige Distillation-Muster im API-Traffic zu identifizieren. Auch wurden die Verifikationsprozesse für Bildungs- und Forschungskonten verschärft und zusätzliche Schutzmaßnahmen eingebaut, um die Effektivität der Modellausgaben für illegale Distillation zu reduzieren.
Die Offenlegung folgt einer ähnlichen Meldung von Googles Threat Intelligence Group, die erst kürzlich über gestörte Distillation- und Model-Extraction-Angriffe auf Geminis Reasoning-Fähigkeiten mit über 100.000 Anfragen berichtete. Google merkte an, dass solche Angriffe für Durchschnittsnutzer typischerweise kein Risiko darstellen, da sie die Vertraulichkeit, Verfügbarkeit oder Integrität von KI-Services nicht beeinträchtigen. Das Risiko konzentriert sich vielmehr auf die Entwickler und Dienstanbieter selbst.
Quelle: The Hacker News