tech-pub

Mercury 2 beschleunigt Reasoning mit diffuser Parallelgeneration

26. Februar 2026 um 10:49Aktualisiert: 3. März1 Quellen

TL;DR

Mercury 2 setzt mit diffuser Parallelgeneration neue KI-Reasoning-Metriken, statt auf autoregressive Schritte zu setzen. Das Inception-Labs-Modell generiert über 1.000 Tokens pro Sekunde und übertrifft Claude Haiku 4.5 sowie Gemini 3 Flash damit um den Faktor fünf. Für anspruchsvolle Reasoning-Pipelines bedeutet das, dass komplexe Kontextfenster fast ohne Wartezeit durchlaufen werden können.

Nauti's Take

Die diffusionsbasierte Parallelgeneration von Mercury 2 zwingt Euch, Autoregressive-Stacks neu zu denken: Über 1.000 Tokens/Sekunde lassen Claude Haiku 4.5 und Gemini 3 Flash hinter sich, also plant niedrige Latenz und große Fenster ein, bevor Eure jetzigen Reasoning-Loops zur Bremse werden.