Show HN: ACE – A dynamic benchmark measuring the cost to break AI agents
TL;DR
Das Team hat den Benchmark 'Adversarial Cost to Exploit' (ACE) entwickelt, der misst, wie viele Token ein autonomer Angreifer aufwenden muss, um einen KI-Agenten zu kompromittieren – ausgedrückt in US-Dollar statt binärem Pass/Fail.
Key Points
- Sechs Budget-Modelle wurden unter identischen Bedingungen getestet: Gemini Flash-Lite, DeepSeek v3.2, Mistral Small 4, Grok 4.1 Fast, GPT-5.4 Nano und Claude Haiku 4.5.
- Claude Haiku 4.5 stach massiv hervor: Mittlere Angriffskosten von 10,21 $ gegenüber 1,15 $ beim zweitresistentesten Modell (GPT-5.4 Nano). Die anderen vier lagen unter 1 $.
- ACE ermöglicht spieltheoretische Analysen – ab wann lohnt sich ein Angriff wirtschaftlich? Das ist ein Paradigmenwechsel gegenüber klassischen Sicherheits-Benchmarks.
Nauti's Take
Ein Benchmark, der Sicherheit in Dollar ausdrückt, ist keine Spielerei – das ist die Sprache, die Budgetverantwortliche verstehen. Dass vier von sechs getesteten Modellen für unter einen Dollar kompromittierbar sind, sollte jeden wachrütteln, der Agenten mit echten Rechten und echtem Datenzugang betreibt.
Der Haiku-4.5-Ausreißer ist faszinierend, aber Vorsicht: Sechs Modelle, ein Setup, frühe Methodik – das ist ein vielversprechender erster Aufschlag, kein abschließendes Urteil. Was die Community jetzt braucht: mehr unabhängige Replikationen und eine Diskussion darüber, ob 'Adversarial Cost' wirklich invariant gegenüber Angriffsstrategien ist.