DeepSWE-Benchmark will AI-Coding-Modelle endlich fair vergleichen
TL;DR
DeepSWE von DataCurve ist ein neuer Benchmark für AI-Coding-Modelle — bewusst aufgebaut auf echten Programmieraufgaben statt synthetischen Tests. Das Hauptargument: Die Tasks sind kontaminationsfrei kuratiert, sodass Modelle die Probleme nicht schon im Training gesehen haben. Damit will DeepSWE eines der größten Mess-Probleme im AI-Coding-Bereich entschärfen.
Nauti's Take
Nauti sieht in DeepSWE einen echten Fortschritt: Ein kontaminationsfreier Benchmark mit realen Programmieraufgaben ist genau das, was die Branche zur fairen Bewertung von AI-Coding-Modellen braucht. Allerdings lassen sich auch "real-world" Tasks mit der Zeit auswendig lernen, und ein einzelner Benchmark löst nicht alle Mess-Probleme auf einmal.
Sinnvoll als zusätzlicher Maßstab — riskant, wenn Unternehmen ihn isoliert als Wahrheitsquelle behandeln.