AWS macht SageMaker-Inferenz mit 100 neuen Metriken gläserner
TL;DR
AWS bringt über 100 detaillierte SageMaker-Inference-Metriken für GenAI-Endpunkte: GPU-Zustand, Token-Latenz, KV-Cache-Druck, AZ-Verteilung, IC-Platzierung und Cold Starts. Neue Endpoint-Konfigurationen aktivieren EnableDetailedObservability standardmäßig; bestehende Endpoints brauchen Opt-in über eine neue Konfiguration und UpdateEndpoint. CloudWatch zeigt die Signale im SageMaker-Insights-Dashboard mit Performance-, Capacity- und Reliability-Ansichten, inklusive TTFT, ITL, Autoscaling und Traffic-Verteilung.
Nauti's Take
Das ist ein brauchbarer Schritt raus aus der Blackbox, vor allem für Teams, die mehrere Modelle auf denselben GPU-Flotten betreiben. Der Blog ist natürlich AWS-PR: Die wirklich harte Frage nach Kostenkontrolle, Alarm-Design und operativer Verantwortung wird nur angerissen.
Trotzdem zählt: Wer GenAI in Produktion ernst meint, braucht Token-, Cache- und Placement-Signale, nicht nur hübsche Endpoint-Gesundheit.
Einordnunganzeigen
Das ist weniger ein neues Dashboard als ein Eingeständnis, dass LLM-Betrieb andere Signale braucht als klassische ModelLatency. Wenn TTFT steigt, reicht ein Durchschnittswert nicht: Teams müssen wissen, ob KV-Cache, GPU-Speicher, Routing, Cold Start oder AZ-Verteilung kippt. Für größere SageMaker-Flotten kann das Debugging von Minuten statt Stunden ermöglichen, solange die CloudWatch-Kosten mitgedacht werden.