Mercury 2 beschleunigt Reasoning mit diffuser Parallelgeneration
TL;DR
Mercury 2 setzt mit diffuser Parallelgeneration neue KI-Reasoning-Metriken, statt auf autoregressive Schritte zu setzen. Das Inception-Labs-Modell generiert über 1.000 Tokens pro Sekunde und übertrifft Claude Haiku 4.5 sowie Gemini 3 Flash damit um den Faktor fünf. Für anspruchsvolle Reasoning-Pipelines bedeutet das, dass komplexe Kontextfenster fast ohne Wartezeit durchlaufen werden können.
Nauti's Take
Die diffusionsbasierte Parallelgeneration von Mercury 2 zwingt Euch, Autoregressive-Stacks neu zu denken: Über 1.000 Tokens/Sekunde lassen Claude Haiku 4.5 und Gemini 3 Flash hinter sich, also plant niedrige Latenz und große Fenster ein, bevor Eure jetzigen Reasoning-Loops zur Bremse werden.
Zusammenfassung
Mercury 2 setzt mit diffuser Parallelgeneration neue KI-Reasoning-Metriken, statt auf autoregressive Schritte zu setzen. Das Inception-Labs-Modell generiert über 1.000 Tokens pro Sekunde und übertrifft Claude Haiku 4.5 sowie Gemini 3 Flash damit um den Faktor fünf.
Für anspruchsvolle Reasoning-Pipelines bedeutet das, dass komplexe Kontextfenster fast ohne Wartezeit durchlaufen werden können.