Open-Source-Judge schlägt GPT-5.2 bei Model-Evaluation – 15x günstiger, 14x schneller
TL;DR
Together AI trainiert das Open-Source-Modell GPT-OSS 120B per Fine-Tuning so, dass es GPT-5.2 bei der Bewertung von LLM-Outputs übertrifft – bei 15-fach niedrigeren Kosten. Verwendet wurde Direct Preference Optimization mit nur 5.400 Präferenzpaaren – deutlich weniger Trainingsdaten als erwartet. Das Ergebnis: 14-fach schnellere Inferenz bei besserer Übereinstimmung mit menschlichen Präferenzen. Der Durchbruch zeigt, dass Open-Source-Judges mit gezieltem Training proprietäre Modelle schlagen können.
Nauti's Take
Noch in Arbeit – Nauti's Take wird in Kürze ergänzt.
Einordnunganzeigen
Wer LLMs evaluiert, zahlt bisher oft drauf – entweder Zeit oder Geld. Dass ein 120B-Open-Source-Modell mit minimalem Training GPT-5.2 schlägt, zeigt: Evaluation muss nicht teuer oder proprietär sein. Das macht LLM-Judges endlich für kleinere Teams und Research-Labs praktikabel.