AWS spart SageMaker-Nutzern den S3-Umweg bei kleinen Async-Inference-Requests
TL;DR
AWS erweitert SageMaker Async Inference: InvokeEndpointAsync akzeptiert jetzt kleine Eingaben direkt als Body in der API, statt sie vorher in S3 abzulegen. Das Limit liegt bei 128.000 Byte; Body und InputLocation schließen sich aus, Verstöße liefern sofort einen ValidationError. Die Ausgabe bleibt unverändert und landet weiter im konfigurierten S3 OutputLocation, bestehende Endpunkte brauchen keine Anpassung.
Nauti's Take
Guter, unspektakulärer Infrastruktur-Fix. AWS nimmt hier einen künstlichen Umweg aus dem Hot Path, der bei kleinen Payloads nie wirklich sinnvoll war.
Die harte 128-KB-Grenze hält das Feature sauber eingehegt, aber Teams müssen jetzt bewusst nach Payload-Größe routen. Wer bisher S3-Inputs auch als Audit-Spur genutzt hat, sollte nicht blind auf Body umstellen.
Einordnunganzeigen
Das Update senkt nicht die Modellkosten, aber es räumt einen nervigen Integrationsschritt weg. Wer viele kleine Async-Jobs anstößt, spart pro Request einen S3-PUT, eine Netzwerkstrecke, IAM-Rechte auf den Input-Bucket und Cleanup-Logik für alte Eingabeobjekte. Für Teams heißt das: weniger Infrastruktur um denselben Inferenzjob herum.