Warum Alibabas neues Qwen 3.7 Max die Top-AI-Modelle entthront
TL;DR
Alibabas neues Qwen 3.7 Max setzt im aktuellen Benchmark-Vergleich Maßstäbe: 60,6 auf Swaybench, einer Eval für langlaufende Coding-Tasks — und schlägt damit Opus 4.6 und Gemini 3.1. Das Modell zeigt, dass die offenen chinesischen Labs technisch nicht nur aufschließen, sondern in Coding-Disziplinen vorpreschen. Geeky Gadgets ordnet ein, was das für die globale Modell-Landschaft und die Preisdynamik bedeutet.
Nauti's Take
Spannend ist die Open-Weight-Performance: Qwen 3.7 Max setzt mit 60,6 auf Swaybench die Coding-Modelle gegen Opus 4.6 und Gemini 3.1 unter echten Preisdruck. Haken: Swaybench bildet Real-World-Engineering nur teilweise ab, und für Enterprise-Setups bleiben Compliance-Fragen rund um Alibaba und chinesische Modelle bestehen.
Wer EU-konform arbeitet, sollte Qwen für nicht-kritische Tasks testen — und vor Production-Rollout die Datenpfade sauber prüfen.