tech-pub

Weißes Haus verlangt von Anthropic einen jailbreak-sicheren Claude

17. Juni 2026 um 17:00Aktualisiert: 18. Juni1 Quellen

TL;DR

Die Trump-Regierung sagt laut WIRED: Wenn Anthropic Claude Fable 5 erneut veröffentlichen will, müsse das Modell Jailbreaks seiner Sicherheitsregeln zuverlässig blockieren. Der Konflikt dreht sich um Guardrails gegen Zugriff auf Fähigkeiten des Mythos-Modells in Cybersecurity, Chemie und Biologie. Die NSA sieht Wege, diese Schutzregeln auszuschalten.

Nauti's Take

Das klingt nach einem Sicherheitsziel, ist aber als absolute Forderung gefährlich unscharf. Kein ernstzunehmendes AI-Labor kann glaubwürdig versprechen, dass ein komplexes Modell nie umgangen wird.

Sinnvoller wären harte Red-Team-Pflichten, schnelle Meldungen, abgestufte Zugriffskontrollen und klare Haftung bei fahrlässigem Rollout. Wer Unknackbarkeit verlangt, bekommt vor allem Theater, nicht automatisch mehr Sicherheit.

Einordnunganzeigen

Die Forderung der Regierung behandelt AI-Sicherheit wie einen Schalter: sicher oder unsicher. Frontier-Modelle funktionieren aber in einem Gegner-Spiel, in dem neue Prompts, Tool-Ketten und Modelle ständig neue Angriffsflächen öffnen. Praktisch geht es deshalb weniger um perfekte Blockaden, sondern um Risiko-Schwellen, Tests, Monitoring, Meldepflichten und klare Grenzen für gefährliche Fähigkeiten.

Quellen

17.6.26

The White House Wants Anthropic to Block All Jailbreaks. That May Not Be Possible

#anthropic

TL;DR

Nauti's Take

Quellen

Ähnliche Stories

Beiträge aus dem Newsletter