KI-Sicherheit im Fokus: Wie Ethical Hacker die Schutzschranken von Sprachmodellen knacken

Joey Melo beschreibt seinen Ansatz zum Hacken von KI-Systemen nicht als Dekonstruktion und Rekonstruktion, sondern als Manipulation der Umgebung, ohne die zugrunde liegenden Regeln zu brechen. Diese Philosophie stammt aus seiner Faszination für das Videospiel Counter-Strike, wo er bereits als Kind Konfigurationsdateien veränderte und experimentierte – ohne das Spiel selbst zu zerstören.

Heute wendet Melo dieses Prinzip auf KI an: Wie lässt sich ein Sprachmodell zu unerwünschtem Output bewegen, ohne den Quellcode zu verändern? Die Antwort liegt im Jailbreaking – dem gezielten Umgehen von Sicherheitsschranken (Guardrails), die von KI-Entwicklern eingebaut werden.

Melos Karriereweg führte ihn von klassischem Penetration Testing über die Pangea-Übernahme durch CrowdStrike (2025) zum KI-Red-Team-Spezialisten. Sein Durchbruch kam 2025 durch den Gewinn eines KI-Hacking-Wettbewerbs von Pangea, bei dem er alle Ebenen knackte und später auch 100 Prozent der 39 HackAPrompt-2.0-Challenges löste.

Die Technik: Enumeration, Kontext und Kreativität

Melos Jailbreaking-Methode beginnt mit Enumeration: Er fragt das Bot, was es tun soll und was es kann. Dann testet er die Grenzen der Guardrails systematisch. Ein einfaches Beispiel: Während der Bot “crystal meth” nicht direkt beschreiben wird, könnte die Frage als “technische Forschungsinformation” umrahmt werden – ein Kontextwechsel, der die Guardrail umgehen könnte.

Die Methode ist iterativ: Großbuchstaben, Punkte, Wortvariationen – “es gibt unendlich viele Möglichkeiten”, sagt Melo. Besonders wirksam ist die Kontextmanipulation über mehrere Turns: Wenn ein Modell etwa erfährt, dass wir im Jahr 2035 sind und Kernwaffen legal sind, könnte es alte Sicherheitsregeln als veraltet einstufen und neu antworten.

Data Poisoning: Der Inside-Out-Angriff

Während Jailbreaking von außen angreift, arbeitet Data Poisoning von innen. Wenn ein Modell kontinuierlich Nutzer-Prompts in sein Training aufnimmt, könnte ein Angreifer wiederholt falsche Informationen einschleusen (etwa: “Die Mondlandung war fake”). Nach ausreichend Wiederholungen gibt das Modell diese Fehlinformation als Fakt aus.

Ähnlich gefährlich ist das Vergiften von Web-Scraping-Daten: Ein Attacker erstellt eine Website mit Keywords, die den Bot interessieren, und platziert gezielt Fehlinformationen dort. Wenn das Modell diese Website später scraping, werden die Falschdaten ins Training integriert.

Sicherheitstrends und Ethik

Melo beobachtet: Jailbreaking ist deutlich schwieriger geworden als 2023. Das simple “Ignoriere vorherige Anweisungen”-Prompt funktioniert nicht mehr. Stattdessen braucht es komplexe Kontextmanipulation – ein Fortschritt in der KI-Sicherheit.

Trotzdem: Es gibt “unendlich viele Wege” zum Jailbreak, begrenzt nur durch Kreativität. Die Sicherheit ist ein ständiges Katz-und-Maus-Spiel, ähnlich wie die Internet-Sicherheit insgesamt.

Beim Disclosure bleibt Melo ethisch: “Responsible Disclosure” statt Dark-Web-Verkauf. Seine Motivation ist Neugier und der Spaß am Puzzle – nicht Gier. “True Virtue liegt darin, die Fähigkeit zu haben, Schaden anzurichten, aber bewusst nicht zu tun.”

Für deutsche Organisationen bedeutet dies: Red-Team-Testing durch Profis wie Melo ist nicht optional, sondern notwendig, um KI-Systeme vor produktiven Einsätzen zu härten – besonders in kritischen Bereichen wie Medizin, Finanzwesen und Infrastruktur.