2 / 959

Schnellere AI-Inferenz auf Amazon SageMaker AI mit G7e-Instanzen

TL;DR

Amazon Web Services stellt G7e-Instanzen fuer SageMaker AI vor - ausgestattet mit NVIDIA RTX PRO 6000 Blackwell Server Edition GPUs und je 96 GB GDDR7-Speicher. Du kannst Nodes mit 1, 2, 4 oder 8 GPUs konfigurieren. Damit lassen sich grosse Open-Source-Modelle wie GPT-OSS-120B und Qwen3.5-35B-A3B kosteneffizient auf einer einzigen Instanz hosten, ohne teure Multi-Node-Cluster.

Nauti's Take

Die Verfuegbarkeit von NVIDIA RTX PRO 6000 Blackwell GPUs auf SageMaker ist ein echter Fortschritt fuer Teams, die grosse Open-Source-Modelle kosteneffizient deployen wollen - Single-Node-Hosting fuer 120B-Modelle war bisher nur mit deutlich teureren Setups realistisch. Der Haken: G7e-Instanzen sind weiterhin Managed-Service-Infrastruktur, das heisst Kosten und Vendor-Lock-in bleiben relevante Faktoren.

Fuer mittelgrosse Teams, die schnell skalieren wollen ohne eigene GPU-Cluster aufzubauen, ist das dennoch ein attraktives Angebot.

Quellen