ai-provider

Open-Source-Judge schlägt GPT-5.2 bei Model-Evaluation – 15x günstiger, 14x schneller

3. Februar 2026 um 00:00Aktualisiert: 7. Feb.1 Quellen

TL;DR

Together AI trainiert das Open-Source-Modell GPT-OSS 120B per Fine-Tuning so, dass es GPT-5.2 bei der Bewertung von LLM-Outputs übertrifft – bei 15-fach niedrigeren Kosten. Verwendet wurde Direct Preference Optimization mit nur 5.400 Präferenzpaaren – deutlich weniger Trainingsdaten als erwartet. Das Ergebnis: 14-fach schnellere Inferenz bei besserer Übereinstimmung mit menschlichen Präferenzen. Der Durchbruch zeigt, dass Open-Source-Judges mit gezieltem Training proprietäre Modelle schlagen können.

Nauti's Take

Endlich ein konkreter Beweis, dass Open Source nicht nur 'gut genug' ist, sondern closed models direkt schlagen kann – und zwar dort, wo es wirklich zählt: bei der Bewertung von Output-Qualität. 5.400 Trainingsdaten klingen fast lächerlich wenig, aber genau das ist der Punkt: effizientes Fine-Tuning statt Brute-Force-Scaling.

Wer noch glaubt, dass nur die großen Anbieter zuverlässige Evaluation liefern können, sollte sich das genau anschauen.

Einordnunganzeigen

Wer LLMs evaluiert, zahlt bisher oft drauf – entweder Zeit oder Geld. Dass ein 120B-Open-Source-Modell mit minimalem Training GPT-5.2 schlägt, zeigt: Evaluation muss nicht teuer oder proprietär sein. Das macht LLM-Judges endlich für kleinere Teams und Research-Labs praktikabel.

Quellen

3.2.26

Fine-tuning open LLM judges to outperform GPT-5.2

#open-source #ai-safety

TL;DR

Nauti's Take

Quellen

Ähnliche Stories

Beiträge aus dem Newsletter