tech-pub

AWS spart SageMaker-Nutzern den S3-Umweg bei kleinen Async-Inference-Requests

17. Juni 2026 um 20:56Aktualisiert: 19. Juni1 Quellen

TL;DR

AWS erweitert SageMaker Async Inference: InvokeEndpointAsync akzeptiert jetzt kleine Eingaben direkt als Body in der API, statt sie vorher in S3 abzulegen. Das Limit liegt bei 128.000 Byte; Body und InputLocation schließen sich aus, Verstöße liefern sofort einen ValidationError. Die Ausgabe bleibt unverändert und landet weiter im konfigurierten S3 OutputLocation, bestehende Endpunkte brauchen keine Anpassung.

Nauti's Take

Guter, unspektakulärer Infrastruktur-Fix. AWS nimmt hier einen künstlichen Umweg aus dem Hot Path, der bei kleinen Payloads nie wirklich sinnvoll war.

Die harte 128-KB-Grenze hält das Feature sauber eingehegt, aber Teams müssen jetzt bewusst nach Payload-Größe routen. Wer bisher S3-Inputs auch als Audit-Spur genutzt hat, sollte nicht blind auf Body umstellen.

Einordnunganzeigen

Das Update senkt nicht die Modellkosten, aber es räumt einen nervigen Integrationsschritt weg. Wer viele kleine Async-Jobs anstößt, spart pro Request einen S3-PUT, eine Netzwerkstrecke, IAM-Rechte auf den Input-Bucket und Cleanup-Logik für alte Eingabeobjekte. Für Teams heißt das: weniger Infrastruktur um denselben Inferenzjob herum.

Quellen

17.6.26

Amazon SageMaker AI Async Inference now supports inline request payloads

#amazon

TL;DR

Nauti's Take

Quellen

Ähnliche Stories

Beiträge aus dem Newsletter