tech-pub

SageMaker Async Inference nimmt kleine Payloads jetzt direkt in der API an

17. Juni 2026 um 20:56Aktualisiert: 18. Juni1 Quellen

TL;DR

Amazon SageMaker KI Async Inference unterstützt jetzt Inline-Payloads: InvokeEndpointAsync kann kleine Eingaben direkt über den Body-Parameter annehmen. Das Limit liegt bei 128.000 Raw Bytes, Body und InputLocation schließen sich gegenseitig aus. Große Bilder, Audiodateien oder Dokumente brauchen weiter den S3-Pfad, die Ergebnisse landen wie bisher im konfigurierten S3 OutputLocation. Für Builder spart das einen S3-PUT, einen Netzwerksprung, IAM-Rechte und Cleanup-Arbeit für kleine Requests.

Nauti's Take

Kleines Infrastruktur-Detail, spürbarer Alltagseffekt. AWS räumt eine Reibung aus dem Weg, die bei kleinen Requests absurd wirkte: erst ein Objekt in S3 legen, nur damit SageMaker es wieder abholt.

Der Haken bleibt: Wer Inputs nachvollziehbar speichern, erneut abspielen oder über 128 KB schicken muss, sollte S3 nicht voreilig entfernen. Für Agenten-Backends und Prompt-Fanout in AWS wird Async Inference aber spürbar weniger nervig.

Einordnunganzeigen

Für Teams, die Async Inference wegen längerer Laufzeiten nutzen, aber nur kleine JSON-Prompts oder strukturierte Daten schicken, war der S3-Zwang unnötiger Klebstoff. Jetzt wird der Client schlanker und Fehler wandern früher in die Validierung. Die 128-KB-Grenze hält die Funktion bewusst in der Komfortzone: weniger Boilerplate für kleine Jobs, weiter S3 für große Dateien und Audit-Replay.

Quellen

17.6.26

Amazon SageMaker AI Async Inference now supports inline request payloads

#amazon

TL;DR

Nauti's Take

Quellen

Ähnliche Stories

Beiträge aus dem Newsletter