Claude soll jailbreak-sicher sein. Das Weiße Haus verlangt etwas, das es kaum geben kann
TL;DR
Trump-Regierungsbeamte sagen WIRED, Anthropic dürfe Claude Fable 5 nur neu veröffentlichen, wenn die Schutzmechanismen nicht mehr per Jailbreak umgangen werden können. Das Modell wurde laut Bericht in der Vorwoche durch Exportkontrollen offline genommen, nachdem Behörden Risiken bei Cybersecurity-, Chemie- und Biologie-Fähigkeiten sahen. Anthropic hält die Sorgen für überzogen und sagt, die praktischen Effekte der Jailbreaks seien gering. Die NSA sieht laut WIRED trotzdem Wege, Guardrails zu deaktivieren.
Nauti's Take
Die Forderung klingt stark, ist aber technisch verdächtig bequem: Blockiert einfach alle Jailbreaks. Genau so funktioniert Sicherheit bei Sprachmodellen nicht.
Sinnvoller wären klare Risikoschwellen, unabhängige Tests, Meldepflichten und schnelle Korrekturzyklen. Sonst entsteht eine Scheinsicherheit, bei der ein politisch gut klingendes Ziel die echte Sicherheitsarbeit überdeckt.
Einordnunganzeigen
Der Fall zeigt, wie schnell AI-Sicherheitsdebatten von Produktfragen zu Regierungseingriffen werden. Wenn Behörden eine Null-Jailbreak-Garantie verlangen, setzen sie einen Maßstab, den heutige Frontier-Modelle vermutlich nicht erfüllen können. Das macht Regulierung härter, aber auch unsauberer: Wer entscheidet, wann ein Modell sicher genug ist?