Nach Angaben des Quelltexts markiert vor allem GLM 5.2 einen neuen Punkt in der Entwicklung: Das Modell ist offen gewichtet, kann also auf lokaler Hardware installiert werden, und es erreichte bei einigen Benchmarks zur Schwachstellensuche bessere Ergebnisse als Opus von Anthropic und GPT-5.5 von OpenAI. Zudem soll es nur 0,17 US-Dollar pro gefundener Schwachstelle kosten. Kurz darauf veröffentlichte 360 Security Technology mit Tulongfeng ein Sicherheitstool, das sein Gründer laut Reuters als Chinas Version von Mythos bezeichnete.
Chris Inglis, früherer US National Cyber Director und heute strategischer Berater des auf Ransomware-Abwehr spezialisierten Unternehmens Halcyon, sieht darin vor allem ein Problem für die Verteidigung. Er sagt, heute könnten bereits allgemein verfügbare Modelle die meisten Abwehrmaßnahmen klar übertreffen. Verteidiger müssten ihre Architektur besser kennen, Schwächen darin priorisieren und Patches sowie Konfigurationskorrekturen schnell und konsequent umsetzen.
Dass KI-Systeme immer besser beim Auffinden von Schwachstellen werden, ist laut Quelltext bereits an mehreren Entwicklungen abzulesen. Im April warnte die Cloud Security Alliance, die Veröffentlichung von Frontier-Modellen, besonders Mythos, könne zu einem „KI-Schwachstellensturm“ führen. Im Mai teilte Google mit, erstmals einen von KI erzeugten Exploit entdeckt zu haben, der von einem Angreifer eingesetzt wurde. Einige Forscher warnten zudem, schon wenige Details in monatlichen Patch-Veröffentlichungen könnten eine schnelle Ausnutzung von Schwachstellen ermöglichen, die derzeit im Durchschnitt innerhalb von drei Stunden erfolge.
Margaret Cunningham, Vice President für Sicherheits- und KI-Strategie bei Darktrace, betont neben der Leistung vor allem das Preis-Leistungs-Verhältnis der chinesischen Modelle. Bessere Modelle seien tendenziell verlässlicher, doch in der Praxis müssten Zuverlässigkeit, Kosten, Zugriff, Geschwindigkeit und einfache Bereitstellung gegeneinander abgewogen werden. Angreifer wie Verteidiger träfen letztlich wirtschaftliche Entscheidungen; ein Modell müsse nur gut genug sein, damit sich sein Einsatz lohne.
Ein weiterer Faktor ist laut den zitierten Experten die lokale Nutzbarkeit offener Modelle. Bei Modellen wie GLM 5.2 sei das für Verteidiger ein Argument für die Einführung, zugleich ermögliche es Angreifern, mit Methoden zu experimentieren, um Schutzmechanismen gegen offensive Nutzung zu umgehen. John Gallagher, Vice President bei Viakoo, verweist außerdem auf Unternehmen, die Daten im eigenen Netzwerk halten müssen. Für sie könne ein leistungsfähiges Open-Weight-Modell vorteilhafter sein als ein Frontier-Modell, wenn dieses nur über Cloud-Programmierschnittstellen nutzbar ist. Gerade in OT-Umgebungen und bei kritischer Infrastruktur sieht er wegen Datensouveränität und möglicher Datenabflüsse Vorteile dieses Ansatzes.
Inglis relativiert zugleich die Bedeutung der Modellarchitektur selbst. Große Sprachmodelle und Ansätze wie Mixture of Experts, das bei GLM 5.2 verwendet wird, seien inzwischen oft nicht mehr der entscheidende Teil. Mit der richtigen umgebenden Software könnten moderne KI-Systeme bereits zwei von drei typischen Kategorien von Sicherheitsrückständen in Unternehmen bearbeiten: bekannte, aber ungepatchte Schwachstellen sowie unbekannte, aber leicht auffindbare Lücken. Frontier-Modelle würden vor allem noch für die dritte Kategorie benötigt, also für Zero-Day-Exploits mit komplexen Schwachstellen oder komplizierten Angriffsketten.
Wie gut GLM 5.2 bei Standardtests abschneidet, zeigt laut Quelltext auch eine Untersuchung von Semgrep. Das Cybersicherheitsunternehmen ermittelte für das Modell einen F1-Wert von 39 Prozent und damit den besten Wert unter den Standardmodellen. Für Cunningham ist dabei die Herkunft des Modells zweitrangig. Wichtiger sei, ob Sicherheitsteams KI sinnvoll in ihre Abläufe integrieren können. Viele Organisationen hätten bei Sichtbarkeit, Workflows, Governance und Entscheidungsprozessen noch Nachholbedarf; diese Faktoren bestimmten die Wirksamkeit der Verteidigung früher als geringfügige Unterschiede zwischen führenden Modellen.
