Parallelize speculative decoding with P-EAGLE on Amazon SageMaker AI
TL;DR
AWS zeigt P-EAGLE in Amazon SageMaker AI: Speculative Decoding erzeugt mehrere Entwurfstokens parallel statt nacheinander und soll so die Latenzkosten tiefer Spekulation senken. JumpStart unterstützt zum Start vier Modelle mit vortrainierten P-EAGLE-Heads: GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct und Gemma-4-31B-IT. In AWS-eigenen Tests auf Qwen3-Coder-30B-A3B-Instruct mit NVIDIA B200 und FP8 erreicht P-EAGLE bis zu 1,69x mehr Durchsatz als EAGLE-3 und deutlich mehr als Standard-Inferenz.
Nauti's Take
Das ist ein klassischer Infrastruktur-Post mit echtem Kern und viel Vendor-Rahmen. P-EAGLE adressiert ein reales Problem: EAGLE wird bei tieferer Spekulation durch sequenzielle Draft-Schritte selbst wieder langsam.
Spannend ist, dass AWS die Optimierung in den Managed-Pfad drückt, statt sie nur als Paper oder GitHub-Demo stehen zu lassen. Wer SageMaker schon nutzt, sollte testen; wer nicht auf AWS sitzt, sollte erst die ökonomische Frage stellen: Spart der zusätzliche Durchsatz mehr Geld, als der Managed-Stack kostet?
Einordnunganzeigen
Für Teams mit teuren LLM-Endpunkten ist das interessant, weil spekulatives Decoding direkt an zwei Kostentreibern zieht: Latenz und Output-Durchsatz. P-EAGLE macht vor allem lange Antworten und Coding-Workloads attraktiver, weil mehr Vorschläge pro Schritt geprüft werden können. Die Einschränkung: Die Zahlen kommen aus einem AWS-Setup mit passender Hardware und vortrainierten Drafter-Heads.