tech-pub

AWS bringt P-EAGLE in SageMaker: schnellere KI-Inferenz ohne Drafter-Basteln

16. Juni 2026 um 17:47Aktualisiert: 18. Juni1 Quellen

TL;DR

AWS integriert P-EAGLE in SageMaker JumpStart und lässt kompatible Modelle als Echtzeit-Endpunkte mit vortrainiertem Drafter Head laufen. Zum Start unterstützt AWS unter anderem GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct und Gemma-4-31B-IT. P-EAGLE entwirft mehrere spekulative Token parallel in einem Forward Pass statt sequenziell wie EAGLE-3. Für Builder zählt vor allem der Durchsatz: AWS meldet bei Qwen3-Coder auf NVIDIA B200 mit FP8 bis zu 1,69x mehr Throughput als EAGLE-3.

Nauti's Take

Speculative Decoding war lange der Teil, bei dem Teams plötzlich an eigener Inferenz-Magie herumschrauben mussten. AWS packt den Drafter jetzt in den Standardweg.

Für Builder heißt das: weniger Container-Alchemie, mehr harte Token pro Euro. Aber nur, wenn das Modell unterstützt wird.

Einordnunganzeigen

Der wichtige Punkt ist nicht die One-click-Demo, sondern der Angriff auf eine echte Inferenz-Bremse: Bei klassischen EAGLE-Verfahren frisst tiefere Spekulation zusätzliche sequentielle Drafter-Zeit. P-EAGLE entkoppelt Spekulationstiefe und Latenz stärker. Für Teams mit langen Code- oder Reasoning-Ausgaben kann das Cloud-Kosten, Antwortzeit und Durchsatz gleichzeitig beeinflussen.

Quellen

16.6.26

Parallelize speculative decoding with P-EAGLE on Amazon SageMaker AI

#amazon

TL;DR

Nauti's Take

Quellen

Ähnliche Stories

Beiträge aus dem Newsletter