11 / 328

AWS bringt Disaggregated Inference mit llm-d auf SageMaker HyperPod

TL;DR

AWS stellt disaggregiertes Inference auf Amazon SageMaker HyperPod EKS vor, basierend auf dem Open-Source-Projekt llm-d.

Key Points

  • Prefill- und Decode-Phasen werden auf separate Ressourcen aufgeteilt, was GPU-Auslastung und Durchsatz deutlich verbessert.
  • Intelligentes Request-Scheduling verteilt Anfragen dynamisch je nach Auslastung der einzelnen Komponenten.
  • Expert Parallelism ermöglicht effizientere Nutzung von MoE-Modellen (Mixture-of-Experts) über mehrere Nodes hinweg.
  • Das Setup läuft auf Kubernetes und lässt sich in bestehende SageMaker-Workflows integrieren.

Nauti's Take

Disaggregiertes Inference ist kein Marketing-Begriff, sondern eine echte Architekturänderung, die in der Forschung schon länger diskutiert wird – AWS bringt sie jetzt in ein verwaltetes Produkt. Positiv: Der Ansatz ist nachvollziehbar, llm-d ist Open Source, und die Kubernetes-Integration macht das Ganze portabler als ein reiner AWS-Lock-in.

Kritisch bleibt, dass SageMaker HyperPod EKS kein günstiges Spielfeld ist – wer das wirklich nutzt, betreibt bereits Inference im Enterprise-Maßstab. Für kleinere Teams bleibt das erstmal Theorie, aber die Konzepte werden sich in günstigere Setups durcharbeiten.

Quellen