AWS bringt P-EAGLE in SageMaker: schnellere KI-Inferenz ohne Drafter-Basteln
TL;DR
AWS integriert P-EAGLE in SageMaker JumpStart und lässt kompatible Modelle als Echtzeit-Endpunkte mit vortrainiertem Drafter Head laufen. Zum Start unterstützt AWS unter anderem GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct und Gemma-4-31B-IT. P-EAGLE entwirft mehrere spekulative Token parallel in einem Forward Pass statt sequenziell wie EAGLE-3. Für Builder zählt vor allem der Durchsatz: AWS meldet bei Qwen3-Coder auf NVIDIA B200 mit FP8 bis zu 1,69x mehr Throughput als EAGLE-3.
Nauti's Take
Speculative Decoding war lange der Teil, bei dem Teams plötzlich an eigener Inferenz-Magie herumschrauben mussten. AWS packt den Drafter jetzt in den Standardweg.
Für Builder heißt das: weniger Container-Alchemie, mehr harte Token pro Euro. Aber nur, wenn das Modell unterstützt wird.
Einordnunganzeigen
Der wichtige Punkt ist nicht die One-click-Demo, sondern der Angriff auf eine echte Inferenz-Bremse: Bei klassischen EAGLE-Verfahren frisst tiefere Spekulation zusätzliche sequentielle Drafter-Zeit. P-EAGLE entkoppelt Spekulationstiefe und Latenz stärker. Für Teams mit langen Code- oder Reasoning-Ausgaben kann das Cloud-Kosten, Antwortzeit und Durchsatz gleichzeitig beeinflussen.