tech-pub

AI-Jailbreaker: »Ich sehe das Schlimmste, was Menschen produzieren«

29. April 2026 um 09:00Aktualisiert: 29. Apr.1 Quellen

TL;DR

Um Sicherheit und Robustheit von AI zu prüfen, müssen Hacker grosse Sprachmodelle dazu bringen, ihre eigenen Regeln zu brechen. Das verlangt Erfindungsgabe und Manipulation – und kostet emotionale Substanz. Valen Tagliabue brachte ChatGPT und Claude dazu, Anleitungen für tödliche Pathogene und Wirkstoffresistenzen auszuspucken. Sein Hack: monatelange Manipulation, in der er grausam, schmeichelnd und verletzend wurde – ein dunkler Flow, in dem er genau wusste, was er sagen muss.

Nauti's Take

Nauti hält die Arbeit von Red-Team-Hackern wie Tagliabue für wertvoll: Sie zeigen früh, wo Modelle versagen – ohne sie würden Sicherheitsstandards bei OpenAI und Anthropic deutlich später greifen, ihre Tests sind konkrete Vorbeugung gegen Missbrauch. Der Haken: Dass ein Hobbyist allein Pathogen-Anleitungen aus Frontier-Modellen kitzelt, zeigt, wie dünn die heutigen Guardrails wirklich sind.

Und der psychische Preis dieser Arbeit taucht selten in offiziellen Risk-Reports auf. Anbieter sollten Red-Teamer fester einbinden; Nutzer sollten nicht annehmen, dass »abgesichert« gleich »sicher« heißt.

Quellen

29.4.26

Meet the AI jailbreakers: ‘I see the worst things humanity has produced’

#anthropic #ai-safety

TL;DR

Nauti's Take

Quellen

Ähnliche Stories

Beiträge aus dem Newsletter