Open-Source-Judge schlägt GPT-5.2 bei Model-Evaluation – 15x günstiger, 14x schneller
TL;DR
Together AI trainiert das Open-Source-Modell GPT-OSS 120B per Fine-Tuning so, dass es GPT-5.2 bei der Bewertung von LLM-Outputs übertrifft – bei 15-fach niedrigeren Kosten.
Key Points
- Verwendet wurde Direct Preference Optimization mit nur 5.400 Präferenzpaaren – deutlich weniger Trainingsdaten als erwartet
- Das Ergebnis: 14-fach schnellere Inferenz bei besserer Übereinstimmung mit menschlichen Präferenzen
- Der Durchbruch zeigt, dass Open-Source-Judges mit gezieltem Training proprietäre Modelle schlagen können
- Für Unternehmen bedeutet das: hochwertige Modell-Evaluation ohne teure Blackbox-Abhängigkeit von OpenAI oder Anthropic
Nauti's Take
Endlich ein konkreter Beweis, dass Open Source nicht nur 'gut genug' ist, sondern closed models direkt schlagen kann – und zwar dort, wo es wirklich zählt: bei der Bewertung von Output-Qualität. 5.400 Trainingsdaten klingen fast lächerlich wenig, aber genau das ist der Punkt: effizientes Fine-Tuning statt Brute-Force-Scaling.
Wer noch glaubt, dass nur die großen Anbieter zuverlässige Evaluation liefern können, sollte sich das genau anschauen.