Weißes Haus verlangt jailbreak-sicheren Claude von Anthropic
TL;DR
Die Trump-Regierung verlangt laut WIRED von Anthropic, Claude Fable 5 nur wieder freizugeben, wenn sich die Guardrails nicht mehr per Jailbreak umgehen lassen. Fable 5 war vergangene Woche über Exportkontrollen offline genommen worden, weil Behörden Risiken bei Cybersecurity-, Chemie- und Biologie-Fähigkeiten sehen. Anthropic hält die Sorgen für überzogen und sagt, die Auswirkungen der Jailbreaks seien minimal. Die NSA soll jedoch Umgehungswege gefunden haben.
Nauti's Take
Die Forderung klingt politisch sauber, technisch aber wackelig. Kein Frontier-Modell lässt sich glaubwürdig auf null Jailbreaks bringen, solange offene Spracheingaben der Hauptzugang sind.
Sinnvoller wäre ein Mix aus Red-Teaming, abgestuften Zugriffen, Monitoring, Incident-Reporting und klaren Haftungsregeln. Alles andere verkauft Sicherheit als Schalter, den es in dieser Form nicht gibt.
Einordnunganzeigen
Der Fall zeigt, wie schnell AI-Sicherheitsdebatten von Modellkarten und Tests in harte Regierungsauflagen kippen können. Wenn Behörden Unmögliches verlangen, entsteht ein gefährlicher Graubereich: Firmen sollen absolute Sicherheit versprechen, obwohl die Technik probabilistisch, dynamisch und angreifbar bleibt.