AWS bringt Disaggregated Inference mit llm-d auf SageMaker HyperPod
TL;DR
AWS stellt disaggregiertes Inference auf Amazon SageMaker HyperPod EKS vor, basierend auf dem Open-Source-Projekt llm-d.
Key Points
- Prefill- und Decode-Phasen werden auf separate Ressourcen aufgeteilt, was GPU-Auslastung und Durchsatz deutlich verbessert.
- Intelligentes Request-Scheduling verteilt Anfragen dynamisch je nach Auslastung der einzelnen Komponenten.
- Expert Parallelism ermöglicht effizientere Nutzung von MoE-Modellen (Mixture-of-Experts) über mehrere Nodes hinweg.
- Das Setup läuft auf Kubernetes und lässt sich in bestehende SageMaker-Workflows integrieren.
Nauti's Take
Disaggregiertes Inference ist kein Marketing-Begriff, sondern eine echte Architekturänderung, die in der Forschung schon länger diskutiert wird – AWS bringt sie jetzt in ein verwaltetes Produkt. Positiv: Der Ansatz ist nachvollziehbar, llm-d ist Open Source, und die Kubernetes-Integration macht das Ganze portabler als ein reiner AWS-Lock-in.
Kritisch bleibt, dass SageMaker HyperPod EKS kein günstiges Spielfeld ist – wer das wirklich nutzt, betreibt bereits Inference im Enterprise-Maßstab. Für kleinere Teams bleibt das erstmal Theorie, aber die Konzepte werden sich in günstigere Setups durcharbeiten.