community

ACE misst, wie teuer es ist, AI-Agenten zu knacken

5. April 2026 um 21:37Aktualisiert: 7. Apr.1 Quellen

TL;DR

Das Team hat den Benchmark 'Adversarial Cost to Exploit' (ACE) entwickelt, der misst, wie viele Token ein autonomer Angreifer aufwenden muss, um einen KI-Agenten zu kompromittieren – ausgedrückt in US-Dollar statt binärem Pass/Fail. Sechs Budget-Modelle wurden unter identischen Bedingungen getestet: Gemini Flash-Lite, DeepSeek v3.2, Mistral Small 4, Grok 4.1 Fast, GPT-5.4 Nano und Claude Haiku 4.5.

Nauti's Take

Ein Benchmark, der Sicherheit in Dollar ausdrückt, ist keine Spielerei – das ist die Sprache, die Budgetverantwortliche verstehen. Dass vier von sechs getesteten Modellen für unter einen Dollar kompromittierbar sind, sollte jeden wachrütteln, der Agenten mit echten Rechten und echtem Datenzugang betreibt.

Der Haiku-4.5-Ausreißer ist faszinierend, aber Vorsicht: Sechs Modelle, ein Setup, frühe Methodik – das ist ein vielversprechender erster Aufschlag, kein abschließendes Urteil. Was die Community jetzt braucht: mehr unabhängige Replikationen und eine Diskussion darüber, ob 'Adversarial Cost' wirklich invariant gegenüber Angriffsstrategien ist.

Einordnunganzeigen

Bisherige Agent-Sicherheitsbenchmarks liefern Ja/Nein-Urteile – das ist für reale Risikoabwägungen kaum nutzbar. ACE übersetzt Widerstandsfähigkeit in Geld und schafft damit eine gemeinsame Sprache für Entwickler, Security-Teams und Entscheider. Der extreme Vorsprung von Haiku 4.5 ist gleichzeitig ein Signal und eine offene Frage: Liegt es am Modelltraining, an RLHF-Details oder an Messartefakten?

Solange die Methodik noch reift, sollten die Zahlen als Richtungsgeber gelten, nicht als Absolut-Wahrheit.