KI-SicherheitSchwachstellenCloud-Sicherheit

KI-Modelle geben gefährliche Ratschläge bei Software-Updates – Studie warnt vor Halluzinationen

KI-Modelle geben gefährliche Ratschläge bei Software-Updates – Studie warnt vor Halluzinationen
Zusammenfassung

Künstliche Intelligenz wird von immer mehr Entwickler-Teams zur Unterstützung bei Softwareabhängigkeiten eingesetzt – doch eine aktuelle Studie des Sicherheitsunternehmens Sonatype warnt vor erheblichen Risiken. Die Forschung untersuchte über 258.000 Abhängigkeitsempfehlungen von führenden KI-Modellen wie GPT-5, Claude und Gemini und kam zu besorgniserregenden Ergebnissen: Die Systeme erfinden regelmäßig nicht existierende Softwareversionen, empfehlen fehlerhafte Upgrades und übersehen kritische Sicherheitslücken. Besonders kritisch ist, dass viele dieser Fehler subtil und plausibel wirken – Entwickler nehmen sie daher häufig unkritisch an. Deutsche Unternehmen und Behörden sind direkt betroffen, da sie zunehmend auf KI-gestützte Entwicklungswerkzeuge setzen. Die Folgen reichen von verschleppten Sicherheitslücken in Produktionssystemen bis hin zu technischen Schulden, die Jahre später Probleme verursachen. Die Studie zeigt jedoch auch einen Lösungsansatz: Wenn KI-Modelle mit echtzeitlichen Daten aus Software-Registern und Schwachstellendatenbanken ausgestattet werden, sinken die Fehlerquoten um etwa 70 Prozent. Das unterstreicht, dass nicht die KI-Technologie selbst das Problem ist, sondern der fehlende Zugang zu aktuellen, zuverlässigen Daten.

Die neue Sonatype-Studie, deren zweiter Teil diese Woche veröffentlicht wurde, zeichnet ein besorgniserregendes Bild: Während neuere Frontier-Modelle tatsächliche Verbesserungen zeigen, bleibt die Rate der “Halluzinationen” und fehlerhaften Empfehlungen erheblich. Besonders bemerkenswert ist die erste Phase der Forschung aus Februar, die sich auf OpenAI’s GPT-5 konzentrierte: Fast 28 Prozent der empfohlenen Dependency-Upgrades existierten gar nicht.

Die aktuelle Analyse untersuchte sieben KI-Modelle von Anthropic, OpenAI und Google – darunter GPT-5.2, Claude Sonnet 3.7 und 4.5, Claude Opus 4.6 sowie Gemini 2.5 Pro und 3 Pro – an 36.870 einzigartigen Upgrade-Empfehlungen aus Maven Central, npm, PyPI und NuGet. Das Ergebnis ist zwiespältig: Während die Modelle sich verbessert haben, scheitern sie weiterhin grundlegend.

“Das Problem liegt nicht an der Skalierung der Modelle, sondern an fehlender Ökosystem-Intelligenz”, erklärt Sonatype. Die KI-Systeme mangelt es an Echtzeit-Daten zu Abhängigkeiten, Anfällbarkeiten, Kompatibilität und Unternehmensrichtlinien – den kritischen Informationen, die für sichere Patch-Entscheidungen notwendig sind.

Besonders kritisch: Einige Modelle reaktivierten sogar bekannte Sicherheitslücken, indem sie zu anfälligen Softwareversionen rieten. Für Unternehmen führt dies zu verschleiertem Sicherheitsrisiko und technischer Schuld, die schwer zu erkennen ist – weil die fehlerhaften Empfehlungen plausibel wirken.

Das Ironischste: Diese Fehler treffen auch die KI-Stack selbst, da die empfohlenen Bibliotheken teils zum Training und Betrieb der LLMs verwendet werden. Die Modelle empfehlen also unsichere Versionen der Tools, die sie selbst antreiben.

Sonatype’s CTO Brian Fox warnt vor der “stillen” Natur dieser Fehler: “Die gefährlichste Version dieses Problems ist nicht, wenn das Modell dir etwas offensichtlich Kaputtes gibt. Es ist, wenn es dir etwas Plausibles gibt, das das Risiko erhält und besser aussieht als es ist.”

Es gibt jedoch einen Hoffnungsschimmer: Sonatype’s eigener hybrider Ansatz mit Echtzeit-Intelligenz bei der Inferenz reduzierte kritische und hohes Risiko um fast 70 Prozent. Selbst das kleinste GPT-5-Modell (GPT-5 Nano) erreichte signifikante Verbesserungen, wenn es mit einem Function-Calling-Tool und echten Daten ausgestattet wurde.

Die Botschaft ist klar: KI für Dependency-Management braucht nicht mehr Modellkapazität, sondern echte, aktuelle Sicherheitsdaten. Ohne solche Verankerung werden KI-Systeme weiterhin teure Fehler machen – egal wie intelligent sie wirken.