Weißes Haus verlangt von Anthropic einen jailbreak-sicheren Claude
TL;DR
WIRED berichtet, dass Trump-Regierungsvertreter Anthropic nur dann eine Wiederveröffentlichung von Claude Fable 5 erlauben wollen, wenn die Schutzmechanismen nicht mehr per Jailbreak umgangen werden können. Anthropic hält die Sorgen laut Bericht für überzogen und sagte in einem technischen Gespräch mit Commerce Department und Office of the National Cyber Director, die Auswirkungen der Jailbreaks seien gering.
Nauti's Take
Die Ansage klingt hart, ist technisch aber verdächtig bequem. Wer von Anthropic verlangt, alle Jailbreaks zu blocken, verlangt am Ende eine mathematische Garantie für ein probabilistisches System mit offenen Eingaben.
Das ist kein belastbarer Release-Standard. Sinnvoller wäre eine ehrliche Auflage: Welche Fähigkeiten bleiben gesperrt, wie wird getestet, wie schnell wird gepatcht, und ab welchem Fund muss ein Modell wieder vom Markt?
Einordnunganzeigen
Die Forderung der Regierung behandelt AI-Sicherheit wie einen Schalter: sicher oder unsicher. Frontier-Modelle funktionieren aber in einem Gegner-Spiel, in dem neue Prompts, Tool-Ketten und Modelle ständig neue Angriffsflächen öffnen. Praktisch geht es deshalb weniger um perfekte Blockaden, sondern um Risiko-Schwellen, Tests, Monitoring, Meldepflichten und klare Grenzen für gefährliche Fähigkeiten.