Amazon streicht S3-Pflicht für SageMaker Async Inference
TL;DR
Amazon SageMaker AI Async Inference unterstützt seit dem 17. Juni 2026 Inline-Payloads: InvokeEndpointAsync kann kleine Inputs direkt im Body annehmen. Die Grenze liegt bei 128.000 Bytes. Body und InputLocation schließen sich aus; bei großen Dateien, Audios oder Bildern bleibt S3 der richtige Weg. Der Output ändert sich nicht: Ergebnisse landen weiter im S3 OutputLocation. Bestehende Async-Endpunkte sollen ohne Model- oder Container-Änderung funktionieren.
Nauti's Take
Kleines Infrastruktur-Detail, spürbarer Alltagseffekt. AWS räumt eine Reibung aus dem Weg, die bei kleinen Requests absurd wirkte: erst ein Objekt in S3 legen, nur damit SageMaker es wieder abholt.
Der Haken bleibt: Wer Inputs nachvollziehbar speichern, erneut abspielen oder über 128 KB schicken muss, sollte S3 nicht voreilig entfernen. Für Agenten-Backends und Prompt-Fanout in AWS wird Async Inference aber spürbar weniger nervig.
Einordnunganzeigen
Für Teams, die Async Inference wegen längerer Laufzeiten nutzen, aber nur kleine JSON-Prompts oder strukturierte Daten schicken, war der S3-Zwang unnötiger Klebstoff. Jetzt wird der Client schlanker und Fehler wandern früher in die Validierung. Die 128-KB-Grenze hält die Funktion bewusst in der Komfortzone: weniger Boilerplate für kleine Jobs, weiter S3 für große Dateien und Audit-Replay.