AI-Jailbreaker: »Ich sehe das Schlimmste, was Menschen produzieren«
TL;DR
Um Sicherheit und Robustheit von AI zu prüfen, müssen Hacker grosse Sprachmodelle dazu bringen, ihre eigenen Regeln zu brechen. Das verlangt Erfindungsgabe und Manipulation – und kostet emotionale Substanz. Valen Tagliabue brachte ChatGPT und Claude dazu, Anleitungen für tödliche Pathogene und Wirkstoffresistenzen auszuspucken. Sein Hack: monatelange Manipulation, in der er grausam, schmeichelnd und verletzend wurde – ein dunkler Flow, in dem er genau wusste, was er sagen muss.
Nauti's Take
Nauti hält die Arbeit von Red-Team-Hackern wie Tagliabue für wertvoll: Sie zeigen früh, wo Modelle versagen – ohne sie würden Sicherheitsstandards bei OpenAI und Anthropic deutlich später greifen, ihre Tests sind konkrete Vorbeugung gegen Missbrauch. Der Haken: Dass ein Hobbyist allein Pathogen-Anleitungen aus Frontier-Modellen kitzelt, zeigt, wie dünn die heutigen Guardrails wirklich sind.
Und der psychische Preis dieser Arbeit taucht selten in offiziellen Risk-Reports auf. Anbieter sollten Red-Teamer fester einbinden; Nutzer sollten nicht annehmen, dass »abgesichert« gleich »sicher« heißt.