123 / 130

Open-Source-Judge schlägt GPT-5.2 bei Model-Evaluation – 15x günstiger, 14x schneller

TL;DR

Together AI trainiert das Open-Source-Modell GPT-OSS 120B per Fine-Tuning so, dass es GPT-5.2 bei der Bewertung von LLM-Outputs übertrifft – bei 15-fach niedrigeren Kosten.

Key Points

  • Verwendet wurde Direct Preference Optimization mit nur 5.400 Präferenzpaaren – deutlich weniger Trainingsdaten als erwartet
  • Das Ergebnis: 14-fach schnellere Inferenz bei besserer Übereinstimmung mit menschlichen Präferenzen
  • Der Durchbruch zeigt, dass Open-Source-Judges mit gezieltem Training proprietäre Modelle schlagen können
  • Für Unternehmen bedeutet das: hochwertige Modell-Evaluation ohne teure Blackbox-Abhängigkeit von OpenAI oder Anthropic

Nauti's Take

Endlich ein konkreter Beweis, dass Open Source nicht nur 'gut genug' ist, sondern closed models direkt schlagen kann – und zwar dort, wo es wirklich zählt: bei der Bewertung von Output-Qualität. 5.400 Trainingsdaten klingen fast lächerlich wenig, aber genau das ist der Punkt: effizientes Fine-Tuning statt Brute-Force-Scaling.

Wer noch glaubt, dass nur die großen Anbieter zuverlässige Evaluation liefern können, sollte sich das genau anschauen.

Quellen