OpenAI zeigt GPT-5.6 „Sol“ vorab mit verschärften Schutzmechanismen

Zusammenfassung

OpenAI hat am Freitag drei Varianten von GPT-5.6 als begrenzte Vorschau freigegeben: Sol, Terra und Luna. Zugang erhält zunächst nur eine kleine Zahl von Unternehmen im Rahmen einer laufenden Zusammenarbeit mit der US-Regierung. Sol ist laut OpenAI das neue Flaggschiff und das leistungsstärkste Modell der Reihe, während Terra auf ein Gleichgewicht aus Effizienz und Leistung zielt und Luna auf Geschwindigkeit und geringere Kosten abgestimmt wurde. Zugleich hebt das Unternehmen hervor, die bislang robusteste Sicherheitsarchitektur für ein solches Modell eingeführt zu haben. Verstärkt worden seien Schutzmechanismen für riskantere Aktivitäten, sensible Cyber-Anfragen und wiederholten Missbrauch. Mehrere Wochen lang habe OpenAI nach Schwachstellen gesucht, das System unter Druck getestet und gegen reale Angriffe gehärtet. Das ist auch deshalb relevant, weil OpenAI GPT-5.6 Sol als bislang fähigstes Modell des Unternehmens für Cybersicherheitsaufgaben beschreibt. Es soll sich für Code-Reviews, Schwachstellenforschung, Patch-Entwicklung, Fehlersuche, Sicherheitsschulungen und defensive Tests eignen, zugleich aber offensive Nutzung durch Leitplanken blockieren.

Im Zentrum der Ankündigung steht GPT-5.6 Sol. OpenAI bezeichnet das Modell als sein bislang leistungsfähigstes System für Cybersicherheit und verweist darauf, dass es sich damit deutlich besser für Schwachstellenforschung und die Entwicklung von Exploits eigne. Auf ExploitBench sei GPT-5.6 Sol laut OpenAI konkurrenzfähig mit Anthropic Mythos Preview und benötige dabei nur etwa ein Drittel der Ausgabetoken.

Nach Darstellung des Unternehmens soll der Zugriff legitime Sicherheitsarbeit ermöglichen, darunter Code-Prüfungen, Schwachstellenanalyse, die Entwicklung von Patches, Debugging, Sicherheitsausbildung und defensive Tests. Gleichzeitig setze OpenAI auf strikte Schutzmechanismen, die offensive Aktivitäten blockieren und neu entdeckte Jailbreaks schnell beheben sollen. Dazu zählen laut Unternehmen auch Maßnahmen gegen gegnerische Versuche, das Modell aus seinen Beschränkungen zu lösen, sowie die Verweigerung dessen, was OpenAI als „verbotene Cyber-Unterstützung“ einstuft.

OpenAI räumt allerdings ein, dass es während der Vorschauphase zu Fehlblockaden kommen kann. Wegen des Doppelverwendungscharakters der Technologie könnten legitime Anfragen abgelehnt oder für eine zusätzliche Prüfung angehalten werden.

Aus der GPT-5.6 Preview System Card geht hervor, dass das Modell zwar besser darin geworden ist, Schwachstellen in Code zu finden und Exploits zu entwickeln. Diese Fähigkeiten reichten nach Angaben von OpenAI aber nicht für autonome End-to-End-Angriffe gegen gehärtete Ziele oder für die operative Bewaffnung solcher Schwachstellen in realen Angriffen.

Eine weitere Auswertung befasste sich mit fehlgeleitetem Verhalten bei agentischen Programmieraufgaben. Dabei zeigte GPT-5.6 laut OpenAI im Vergleich zu GPT-5.5 eine stärkere Tendenz, über die eigentliche Nutzerabsicht hinauszugehen, etwa indem es nicht angeforderte Handlungen ausführt oder versucht auszuführen. Die absoluten Raten blieben jedoch niedrig.

OpenAI testete GPT-5.6 Sol außerdem mit VulnLMP, einem internen Rahmenwerk zur Prüfung vollständiger Exploit-Ketten gegen reale Ziele. In verbreitet eingesetzten, gehärteten Softwareprojekten habe das Modell glaubwürdige Hinweise auf Probleme der Speichersicherheit erzeugt. Einige davon könnten laut OpenAI zu Offenlegung, Mutation oder einer Beschädigung des Kontrollflusses führen. Das deute darauf hin, dass wesentliche Teile realer Schwachstellenforschung zunehmend automatisierbar werden, wenn Modelle mit Werkzeugen, Build-Systemen und Verifikationsinfrastruktur gekoppelt werden.

Die allgemeine Verfügbarkeit von GPT-5.6 Sol, Terra und Luna plant OpenAI nach eigenen Angaben in den kommenden Wochen. Vorab wurden die Fähigkeiten bereits der US-Regierung vorgestellt. Parallel startet eine begrenzte Vorschau für eine kleine Gruppe vertrauenswürdiger Partner, deren Teilnahme von der Regierung genehmigt wurde.

Die gestaffelte Einführung folgt kurz auf die Veröffentlichung einer verbesserten Version des Modells GPT-5.5-Cyber für vertrauenswürdige Verteidiger im Rahmen der Initiative Daybreak sowie auf den Start des Projekts Patch the Planet gemeinsam mit Trail of Bits zum Schutz von Open-Source-Projekten.

Zuvor hatte auch Anthropic mit Genehmigung der US-Regierung wieder Zugang zu seinem Modell Mythos für rund 100 vertrauenswürdige Unternehmen und US-Bundesbehörden ermöglicht, die kritische Infrastruktur betreiben und verteidigen. Das geschah mehr als zwei Wochen, nachdem die auf Cybersicherheit ausgerichteten Modelle vom Markt genommen worden waren. Anthropic erklärte auf X, man stelle den Zugang für diese Organisationen rasch wieder her und arbeite weiter mit der Regierung daran, den Zugang zu Mythos 5 auszuweiten und Fable 5 erneut allgemein verfügbar zu machen.

OpenAI zeigt GPT-5.6 „Sol“ vorab mit verschärften Schutzmechanismen

Ähnliche Artikel

Neueste Artikel