Weißes Haus verlangt von Anthropic einen jailbreak-sicheren Claude
TL;DR
Die Trump-Regierung sagt laut WIRED: Wenn Anthropic Claude Fable 5 erneut veröffentlichen will, müsse das Modell Jailbreaks seiner Sicherheitsregeln zuverlässig blockieren. Der Konflikt dreht sich um Guardrails gegen Zugriff auf Fähigkeiten des Mythos-Modells in Cybersecurity, Chemie und Biologie. Die NSA sieht Wege, diese Schutzregeln auszuschalten.
Nauti's Take
Das klingt nach einem Sicherheitsziel, ist aber als absolute Forderung gefährlich unscharf. Kein ernstzunehmendes AI-Labor kann glaubwürdig versprechen, dass ein komplexes Modell nie umgangen wird.
Sinnvoller wären harte Red-Team-Pflichten, schnelle Meldungen, abgestufte Zugriffskontrollen und klare Haftung bei fahrlässigem Rollout. Wer Unknackbarkeit verlangt, bekommt vor allem Theater, nicht automatisch mehr Sicherheit.
Einordnunganzeigen
Die Forderung der Regierung behandelt AI-Sicherheit wie einen Schalter: sicher oder unsicher. Frontier-Modelle funktionieren aber in einem Gegner-Spiel, in dem neue Prompts, Tool-Ketten und Modelle ständig neue Angriffsflächen öffnen. Praktisch geht es deshalb weniger um perfekte Blockaden, sondern um Risiko-Schwellen, Tests, Monitoring, Meldepflichten und klare Grenzen für gefährliche Fähigkeiten.