Dies ist die am meisten missverstandene Grafik in AI
TL;DR
MIT Technology Review erklärt, warum das berühmte METR-Balkendiagramm zu KI-Fähigkeiten systematisch missverstanden wird.
Key Points
- METR testet Frontier-Modelle von OpenAI, Google und Anthropic auf gefährliche Fähigkeiten wie autonome Replikation und Hacking
- Das Diagramm zeigt nicht, ob ein Modell gefährlich ist, sondern nur, ob es bestimmte Teilschritte schafft – ohne Kontext zu Erfolgsrate oder realer Bedrohung
- METR selbst warnt: Die Grafik ist ein Forschungs-Snapshot, kein Sicherheitszertifikat
- Medien und Hype-Accounts ignorieren diese Nuancen und verwenden die Grafik als Beweis für drohende KI-Risiken
Nauti's Take
Das Problem ist nicht das Diagramm – es ist, dass niemand die Fußnoten liest. METR macht transparente Forschung, aber Medien und Twitter-Threads reduzieren komplexe Evals auf „Modell X ist sicher” oder „Modell Y ist gefährlich”.
Das ist Bullshit. Ein Balken bei 60 % sagt nichts über Kosten, Erfolgsrate bei Wiederholung oder ob ein Angreifer das überhaupt nutzen kann.
Solange wir Benchmarks wie Sportstatistiken behandeln, bleibt die Debatte oberflächlich. METR liefert Rohdaten – der Rest ist Interpretationsarbeit, die kaum jemand macht.