AI-Benchmarks sind kaputt: Das brauchen wir stattdessen
TL;DR
KI-Modelle werden seit Jahren daran gemessen, ob sie einzelne Menschen bei isolierten Aufgaben schlagen – Schach, Mathe, Coding, Aufsätze.
Key Points
- Dieses „KI vs. Mensch”-Framing ist griffig, aber irreführend: Es misst nicht, wie KI in echten, komplexen Arbeitsumgebungen abschneidet.
- Aktuelle Benchmarks werden von Modellen schnell gesättigt – sobald ein Modell top ist, braucht es einen neuen Test, ohne dass das echte Fortschritte zeigt.
- Forscher fordern Bewertungsrahmen, die Systemleistung in realen Workflows messen, nicht punktuelle Einzelaufgaben gegen einen menschlichen Referenzwert.
Nauti's Take
Es ist ein offenes Geheimnis in der KI-Branche: Benchmarks werden optimiert, nicht Fähigkeiten. Modelle werden auf Testsets trainiert oder fein-getunt, bis die Zahlen glänzen – was in der Praxis folgt, ist oft Ernüchterung.
Das „schlägt den Menschen”-Narrativ ist Marketing, kein Maßstab. Was wirklich fehlt, sind Bewertungen, die messen, ob KI-Systeme in konkreten Berufskontexten über Wochen zuverlässig funktionieren – nicht ob ein Modell an einem Dienstag einen SAT-Test besteht.