SageMaker Async Inference nimmt kleine Payloads jetzt direkt in der API an
TL;DR
Amazon SageMaker KI Async Inference unterstützt jetzt Inline-Payloads: InvokeEndpointAsync kann kleine Eingaben direkt über den Body-Parameter annehmen. Das Limit liegt bei 128.000 Raw Bytes, Body und InputLocation schließen sich gegenseitig aus. Große Bilder, Audiodateien oder Dokumente brauchen weiter den S3-Pfad, die Ergebnisse landen wie bisher im konfigurierten S3 OutputLocation. Für Builder spart das einen S3-PUT, einen Netzwerksprung, IAM-Rechte und Cleanup-Arbeit für kleine Requests.
Nauti's Take
Kleines Infrastruktur-Detail, spürbarer Alltagseffekt. AWS räumt eine Reibung aus dem Weg, die bei kleinen Requests absurd wirkte: erst ein Objekt in S3 legen, nur damit SageMaker es wieder abholt.
Der Haken bleibt: Wer Inputs nachvollziehbar speichern, erneut abspielen oder über 128 KB schicken muss, sollte S3 nicht voreilig entfernen. Für Agenten-Backends und Prompt-Fanout in AWS wird Async Inference aber spürbar weniger nervig.
Einordnunganzeigen
Für Teams, die Async Inference wegen längerer Laufzeiten nutzen, aber nur kleine JSON-Prompts oder strukturierte Daten schicken, war der S3-Zwang unnötiger Klebstoff. Jetzt wird der Client schlanker und Fehler wandern früher in die Validierung. Die 128-KB-Grenze hält die Funktion bewusst in der Komfortzone: weniger Boilerplate für kleine Jobs, weiter S3 für große Dateien und Audit-Replay.