3 / 1485

AWS streicht den S3-Umweg für kleine SageMaker-Async-Inputs

TL;DR

Amazon SageMaker AI Async Inference akzeptiert jetzt Inline-Payloads im Body von InvokeEndpointAsync. Für Inputs bis 128.000 Byte entfällt der bisher nötige Upload nach Amazon S3 vor jedem Aufruf. Das vereinfacht kleine Async-Workloads wie JSON-Prompts oder strukturierte Daten: ein API-Call statt S3-Upload, Input-Bucket, S3-Rechten, UUID-Key-Logik und Aufräumjob.

Nauti's Take

AWS verkauft das als Komfort-Feature, und genau das ist es: klein, technisch, aber im Alltag nützlich. Wer schon einmal Async-Inference-Pipelines mit Mini-JSONs gebaut hat, kennt den absurden Umweg über S3 nur zu gut.

Trotzdem sollte niemand jetzt blind alles inline schicken. Für nachvollziehbare Inputs, größere Daten oder spätere Replays bleibt S3 die sauberere Spur.

Einordnunganzeigen

Das ist keine neue Modellfähigkeit, aber eine spürbare Infrastruktur-Erleichterung für Teams, die Async Inference wegen längerer Laufzeiten nutzen und trotzdem nur kleine Requests senden. Weniger S3-Pflicht bedeutet weniger IAM-Fläche, weniger Fehlerquellen und etwas weniger Latenz und Kosten pro Request. Der Haken: 128 KB sind schnell erreicht, sobald Prompts, Metadaten oder Dokumentauszüge wachsen.

Quellen