3 / 1485

Amazon streicht S3-Pflicht für SageMaker Async Inference

TL;DR

Amazon SageMaker AI Async Inference kann Payloads jetzt direkt im Body von InvokeEndpointAsync annehmen. Für Inputs bis 128.000 Byte entfällt der bisher nötige Upload nach Amazon S3 vor jedem Aufruf. Die neue Option ist für kleine JSON-Prompts und strukturierte Daten gedacht. Body und InputLocation schließen sich gegenseitig aus; setzt ein Client beides oder überschreitet das Limit, kommt sofort ein ValidationError.

Nauti's Take

Das ist eine dieser kleinen Cloud-Änderungen, die in der Praxis mehr bringen können als manche Modellankündigung. Wer Async Inference für kurze Prompts nutzt, bekommt endlich den direkten Pfad statt S3-Pflichtübung.

Gleichzeitig bleibt AWS sehr AWS: Der Output hängt weiter an S3, und bei mehr als 128 KB bist du wieder im alten Muster. Solide, aber kein Grund für Konfetti.

Einordnunganzeigen

Das klingt klein, trifft aber einen echten Reibungspunkt bei asynchroner Inference. Viele AI-Aufrufe sind klein genug für 128 KB, brauchen aber trotzdem längere Verarbeitungszeiten als Real-Time-Inference erlaubt. Genau dort war der Pflichtweg über S3 eher Architektur-Ballast als Nutzen.

Quellen