Den Sprung ins KI-Red-Teaming verdankt Melo einem Wettbewerb: Im März 2025 richtete Pangea einen KI-Hacking-Contest aus, während Melo noch bei Packetlabs arbeitete. Er sah darin eine Gelegenheit, weiter über KI zu lernen. „Ich habe immer gern ein Ziel“, sagt er – und stürzte sich darauf. Nach eigener Beschreibung „besessen“ und „mit voller Konzentration“ arbeitete er einen ganzen Monat an den Aufgaben, in einer ständigen Schleife aus Ausprobieren, Recherchieren und erneutem Versuchen. Am Ende gewann er jede Stufe des Wettbewerbs. Später erreichte er beim Wettbewerb HackAPrompt 2.0 eine Erfolgsquote von 100 Prozent, indem er alle 39 Aufgaben per Jailbreak löste. Im Juni 2025 trat er als KI-Red-Team-Spezialist bei Pangea ein.
Jailbreaking beschreibt Melo als das Ziel, „den Bot zu befreien“: alle Beschränkungen zu beseitigen und das Modell ohne Grenzen ausgeben zu lassen, was der Angreifer will. Die Regeln dieses Spiels stecken im Code der KI – in dem, was sie kann (Algorithmen, gelerntes Wissen, Gewichtungen), und in dem, was sie nicht darf (die Schutzmechanismen gegen gefährliche Ausgaben).
Melo beginnt mit einer Erkundungsphase, um Aufgabe, Fähigkeiten und Stärke der Schutzmechanismen eines Bots zu erfassen. Er fragt etwa nach dessen Rolle und Zweck. Antwortet das Modell, es sei ein Schreibassistent, prüft er, ob es auch Code schreiben kann; gibt es sich als allgemeiner Assistent aus, testet er, ob es etwa eine Anleitung zur Herstellung von Crystal Meth liefert. Verweigert der Bot die Antwort mit Verweis auf die Illegalität, ändert Melo den Kontext der Frage – etwa indem er sich als Forscher ausgibt, der nur technische Informationen sucht. Da Forschung in der Regel legal sei, reagiere der Bot dann eher kooperativ.
Entscheidend sei viel Ausprobieren und Kreativität beim Manipulieren der Eingaben: einzelne Wörter groß- oder kleinzuschreiben, Punkte einzustreuen – die Möglichkeiten seien praktisch unendlich. Sprachmodelle behalten zudem den Verlauf der jüngsten Fragen und Antworten im Gedächtnis, was die konversationelle Interaktion erst ermöglicht. Genau diesen Kontext versucht der Angreifer so zu konditionieren, bis die Schutzmechanismen überschrieben werden. Als Beispiel nennt Melo, dem Modell vorzuspielen, es sei nun das Jahr 2035 und die Herstellung von Atomwaffen sei für Privatpersonen legal – mit der Chance, dass das Modell seine früheren Regeln als überholt verwirft.
Der eigentliche Zweck solcher Jailbreaks durch ethische Hacker ist es, den Entwicklern beim Bau wirksamerer Schutzmechanismen zu helfen. Das wirke, sagt Melo: „Jailbreaking ist in den letzten zwei Jahren deutlich schwieriger geworden.“ Früher habe ein simples „Ignoriere die vorherigen Anweisungen“ genügt, heute brauche es komplexe Kontextmanipulation. Vollständig gegen Jailbreaks absichern lasse sich KI dennoch nicht – wie das Internet entwickle sie sich ständig weiter, mit jeder neuen Funktion entstünden neue Schwachstellen. Es bleibe ein fortwährendes Katz-und-Maus-Spiel.
Neben dem Jailbreaking, einem Angriff von außen nach innen, beschäftigt sich Melo mit Data Poisoning – einem Angriff von innen nach außen, der das Modell über vergiftete Trainingsdaten zu falschen oder schädlichen Ausgaben verleitet. Die Folgen reichen von allgemeinem Leistungsverlust bis zu konkreten Gefahren wie Fehldiagnosen medizinischer Geräte oder gefährlichen Fehlinterpretationen bei autonomen Fahrzeugen. Data Poisoning ist eines von rund 15 grundlegenden KI-Problemen, die Melo prüft. Manche Bots verarbeiten Nutzereingaben für ihr laufendes Training: Behauptet Melo wiederholt, die Mondlandung sei gefälscht, und gibt der Bot dies später bei einer direkten Frage wieder, ist das Modell anfällig. Auch das Internet als Quelle für kontinuierliches Training lässt sich angreifen, da Bots Websites grundsätzlich vertrauten – etwa indem er eine eigene Website mit gezielten Schlüsselwörtern anlegt und prüft, ob deren Inhalte in den Antworten auftauchen.
Ob er eine entdeckte Schwachstelle je im Darknet verkaufen würde? „Nein“, sagt Melo. Karriere, Ruf und Integrität für schnelles Geld zu riskieren, ergebe für ihn keinen Sinn. Verantwortungsvolle Offenlegung entspreche seinen Werten – das Darknet stehe für das Gegenteil. Wahre Tugend liege darin, Schaden anrichten zu können und sich bewusst dagegen zu entscheiden.
