DeepSeek-V4 ausliefern: Million-Token-Kontext wird zum Inference-Problem
TL;DR
Mit DeepSeek-V4 wird ein Kontextfenster von einer Million Tokens zur knallharten Serving-Frage. Together AI zeigt, was hinter dem produktiven Betrieb auf NVIDIA HGX B200 steckt: komprimierte KV-Layouts, Prefix Caching, ausgereifte Kernels und spezielle Endpoint-Profile für Long-Context-Workloads. Wer riesige Kontexte ernst nutzen will, muss auch die Inference-Pipeline neu denken – sonst verpufft der Modell-Vorteil im Speicher.
Nauti's Take
Noch in Arbeit – Nauti's Take wird in Kürze ergänzt.