AWS erspart SageMaker Async Inference den S3-Umweg für kleine Payloads
TL;DR
AWS hat für SageMaker AI Async Inference Inline-Payloads freigeschaltet: InvokeEndpointAsync akzeptiert jetzt den neuen Body-Parameter, sodass kleine Eingaben direkt im Request statt vorher in Amazon S3 landen. Die Grenze liegt bei 128.000 Byte Rohpayload. Body und InputLocation schließen sich gegenseitig aus; wer beides sendet oder zu groß wird, bekommt sofort einen ValidationError.
Nauti's Take
Guter, unspektakulärer Infrastruktur-Fix. AWS nimmt hier einen künstlichen Umweg aus dem Hot Path, der bei kleinen Payloads nie wirklich sinnvoll war.
Die harte 128-KB-Grenze hält das Feature sauber eingehegt, aber Teams müssen jetzt bewusst nach Payload-Größe routen. Wer bisher S3-Inputs auch als Audit-Spur genutzt hat, sollte nicht blind auf Body umstellen.
Einordnunganzeigen
Das ist keine neue Modellfähigkeit, sondern eine Reibungsbremse im Inference-Betrieb. Für kleine JSON-Prompts, strukturierte Daten oder Fan-out-Jobs wird Async Inference näher an einen normalen API-Aufruf gerückt, ohne die Vorteile von Queueing und Scale-to-zero aufzugeben. Für große Bilder, Audio oder auditierbare Eingaben bleibt S3 weiter der richtige Weg.