tech-pub

AWS erspart SageMaker Async Inference den S3-Umweg für kleine Payloads

17. Juni 2026 um 20:56Aktualisiert: 19. Juni1 Quellen

TL;DR

AWS hat für SageMaker AI Async Inference Inline-Payloads freigeschaltet: InvokeEndpointAsync akzeptiert jetzt den neuen Body-Parameter, sodass kleine Eingaben direkt im Request statt vorher in Amazon S3 landen. Die Grenze liegt bei 128.000 Byte Rohpayload. Body und InputLocation schließen sich gegenseitig aus; wer beides sendet oder zu groß wird, bekommt sofort einen ValidationError.

Nauti's Take

Guter, unspektakulärer Infrastruktur-Fix. AWS nimmt hier einen künstlichen Umweg aus dem Hot Path, der bei kleinen Payloads nie wirklich sinnvoll war.

Die harte 128-KB-Grenze hält das Feature sauber eingehegt, aber Teams müssen jetzt bewusst nach Payload-Größe routen. Wer bisher S3-Inputs auch als Audit-Spur genutzt hat, sollte nicht blind auf Body umstellen.

Einordnunganzeigen

Das ist keine neue Modellfähigkeit, sondern eine Reibungsbremse im Inference-Betrieb. Für kleine JSON-Prompts, strukturierte Daten oder Fan-out-Jobs wird Async Inference näher an einen normalen API-Aufruf gerückt, ohne die Vorteile von Queueing und Scale-to-zero aufzugeben. Für große Bilder, Audio oder auditierbare Eingaben bleibt S3 weiter der richtige Weg.

Quellen

17.6.26

Amazon SageMaker AI Async Inference now supports inline request payloads

#amazon

TL;DR

Nauti's Take

Quellen

Ähnliche Stories

Beiträge aus dem Newsletter