Amazon SageMaker Async Inference nimmt Payloads jetzt direkt entgegen
TL;DR
AWS hat am 17. Juni Inline-Payloads für Amazon SageMaker AI Async Inference vorgestellt: Kleine Eingaben können jetzt direkt im Request Body von 'InvokeEndpointAsync' landen. Bisher musste der Client vor jedem Async-Aufruf erst ein Input-Objekt in Amazon S3 schreiben und dann dessen 'InputLocation' übergeben. Für Payloads bis 128.000 Byte fällt dieser Schritt weg.
Nauti's Take
Das ist genau die Sorte Cloud-Feature, die im Alltag mehr bringt als die Ankündigung vermuten lässt. AWS verkauft es natürlich als Vereinfachung, und das stimmt hier auch, aber mit klarer Grenze: 128.000 Byte sind für Prompts und strukturierte Daten gut, für Medien und große Dokumente nicht.
Wer SageMaker Async bisher mit kleinen Inputs betrieben hat, sollte den alten S3-Vorbau prüfen und rauswerfen, wenn er nur aus historischer Pflicht existiert.
Einordnunganzeigen
Für Teams, die Async Inference wegen längerer Laufzeiten nutzen, aber nur kleine JSON-Prompts oder strukturierte Daten schicken, war der S3-Zwang unnötiger Klebstoff. Jetzt wird der Client schlanker und Fehler wandern früher in die Validierung. Die 128-KB-Grenze hält die Funktion bewusst in der Komfortzone: weniger Boilerplate für kleine Jobs, weiter S3 für große Dateien und Audit-Replay.