7 / 1469

AWS bringt P-EAGLE in SageMaker: Spekulatives Decoding wird parallel

TL;DR

AWS integriert P-EAGLE in SageMaker JumpStart für GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct und Gemma-4-31B-IT, jeweils mit vortrainierten P-EAGLE-Heads. P-EAGLE parallelisiert speculative decoding: Statt K Draft-Tokens nacheinander wie bei EAGLE-3 zu erzeugen, werden alle Draft-Positionen in einem Forward Pass vorhergesagt und danach vom Zielmodell verifiziert.

Nauti's Take

Der spannende Teil ist nicht, dass AWS noch einen SageMaker-Button baut. Spannend ist, dass P-EAGLE die übliche Speculative-Decoding-Wette verschiebt: mehr Tiefe beim Drafting, ohne dass die Drafting-Latenz linear mitwächst.

Trotzdem bleibt das ein AWS-Blog mit optimierten Benchmarks, ausgewählter Hardware und einem klaren Produktinteresse. Wer das einsetzt, sollte eigene Prompts, eigene Konkurrenz, eigene Kosten pro 1.000 Output-Tokens messen.

Einordnunganzeigen

Speculative Decoding ist einer der wenigen Hebel, der Inferenz schneller machen kann, ohne das Zielmodell inhaltlich zu verändern, weil Kandidaten weiter vom großen Modell geprüft werden. P-EAGLE adressiert genau den Teil, der bei EAGLE-3 bremst: die serielle Erzeugung der Draft-Tokens. Für Teams mit langen Coding- oder Reasoning-Ausgaben kann das mehr Output pro GPU bedeuten, nicht nur eine hübsche Demo im Modellhub.

Quellen