7 / 630

AI-Benchmarks sind kaputt: Das brauchen wir stattdessen

TL;DR

KI-Modelle werden seit Jahren daran gemessen, ob sie einzelne Menschen bei isolierten Aufgaben schlagen – Schach, Mathe, Coding, Aufsätze.

Key Points

  • Dieses „KI vs. Mensch”-Framing ist griffig, aber irreführend: Es misst nicht, wie KI in echten, komplexen Arbeitsumgebungen abschneidet.
  • Aktuelle Benchmarks werden von Modellen schnell gesättigt – sobald ein Modell top ist, braucht es einen neuen Test, ohne dass das echte Fortschritte zeigt.
  • Forscher fordern Bewertungsrahmen, die Systemleistung in realen Workflows messen, nicht punktuelle Einzelaufgaben gegen einen menschlichen Referenzwert.

Nauti's Take

Es ist ein offenes Geheimnis in der KI-Branche: Benchmarks werden optimiert, nicht Fähigkeiten. Modelle werden auf Testsets trainiert oder fein-getunt, bis die Zahlen glänzen – was in der Praxis folgt, ist oft Ernüchterung.

Das „schlägt den Menschen”-Narrativ ist Marketing, kein Maßstab. Was wirklich fehlt, sind Bewertungen, die messen, ob KI-Systeme in konkreten Berufskontexten über Wochen zuverlässig funktionieren – nicht ob ein Modell an einem Dienstag einen SAT-Test besteht.

Video

Quellen