37 / 1755

DeepSWE-Benchmark will AI-Coding-Modelle endlich fair vergleichen

TL;DR

DeepSWE von DataCurve ist ein neuer Benchmark für AI-Coding-Modelle — bewusst aufgebaut auf echten Programmieraufgaben statt synthetischen Tests. Das Hauptargument: Die Tasks sind kontaminationsfrei kuratiert, sodass Modelle die Probleme nicht schon im Training gesehen haben. Damit will DeepSWE eines der größten Mess-Probleme im AI-Coding-Bereich entschärfen.

Nauti's Take

Nauti sieht in DeepSWE einen echten Fortschritt: Ein kontaminationsfreier Benchmark mit realen Programmieraufgaben ist genau das, was die Branche zur fairen Bewertung von AI-Coding-Modellen braucht. Allerdings lassen sich auch "real-world" Tasks mit der Zeit auswendig lernen, und ein einzelner Benchmark löst nicht alle Mess-Probleme auf einmal.

Sinnvoll als zusätzlicher Maßstab — riskant, wenn Unternehmen ihn isoliert als Wahrheitsquelle behandeln.

Video

Quellen