KI-Modelle geben gefährliche Ratschläge bei Software-Updates – Studie warnt vor Halluzinationen

Die neue Sonatype-Studie, deren zweiter Teil diese Woche veröffentlicht wurde, zeichnet ein besorgniserregendes Bild: Während neuere Frontier-Modelle tatsächliche Verbesserungen zeigen, bleibt die Rate der “Halluzinationen” und fehlerhaften Empfehlungen erheblich. Besonders bemerkenswert ist die erste Phase der Forschung aus Februar, die sich auf OpenAI’s GPT-5 konzentrierte: Fast 28 Prozent der empfohlenen Dependency-Upgrades existierten gar nicht.

Die aktuelle Analyse untersuchte sieben KI-Modelle von Anthropic, OpenAI und Google – darunter GPT-5.2, Claude Sonnet 3.7 und 4.5, Claude Opus 4.6 sowie Gemini 2.5 Pro und 3 Pro – an 36.870 einzigartigen Upgrade-Empfehlungen aus Maven Central, npm, PyPI und NuGet. Das Ergebnis ist zwiespältig: Während die Modelle sich verbessert haben, scheitern sie weiterhin grundlegend.

“Das Problem liegt nicht an der Skalierung der Modelle, sondern an fehlender Ökosystem-Intelligenz”, erklärt Sonatype. Die KI-Systeme mangelt es an Echtzeit-Daten zu Abhängigkeiten, Anfällbarkeiten, Kompatibilität und Unternehmensrichtlinien – den kritischen Informationen, die für sichere Patch-Entscheidungen notwendig sind.

Besonders kritisch: Einige Modelle reaktivierten sogar bekannte Sicherheitslücken, indem sie zu anfälligen Softwareversionen rieten. Für Unternehmen führt dies zu verschleiertem Sicherheitsrisiko und technischer Schuld, die schwer zu erkennen ist – weil die fehlerhaften Empfehlungen plausibel wirken.

Das Ironischste: Diese Fehler treffen auch die KI-Stack selbst, da die empfohlenen Bibliotheken teils zum Training und Betrieb der LLMs verwendet werden. Die Modelle empfehlen also unsichere Versionen der Tools, die sie selbst antreiben.

Sonatype’s CTO Brian Fox warnt vor der “stillen” Natur dieser Fehler: “Die gefährlichste Version dieses Problems ist nicht, wenn das Modell dir etwas offensichtlich Kaputtes gibt. Es ist, wenn es dir etwas Plausibles gibt, das das Risiko erhält und besser aussieht als es ist.”

Es gibt jedoch einen Hoffnungsschimmer: Sonatype’s eigener hybrider Ansatz mit Echtzeit-Intelligenz bei der Inferenz reduzierte kritische und hohes Risiko um fast 70 Prozent. Selbst das kleinste GPT-5-Modell (GPT-5 Nano) erreichte signifikante Verbesserungen, wenn es mit einem Function-Calling-Tool und echten Daten ausgestattet wurde.

Die Botschaft ist klar: KI für Dependency-Management braucht nicht mehr Modellkapazität, sondern echte, aktuelle Sicherheitsdaten. Ohne solche Verankerung werden KI-Systeme weiterhin teure Fehler machen – egal wie intelligent sie wirken.