tech-pub

AWS streicht den S3-Umweg für kleine SageMaker-Async-Inputs

17. Juni 2026 um 20:56Aktualisiert: 18. Juni1 Quellen

TL;DR

Amazon SageMaker Async Inference akzeptiert jetzt Payloads direkt im InvokeEndpointAsync-Request. Für kleine Eingaben entfällt damit der vorher nötige Upload nach S3; Inline-Payloads sind auf 128.000 Byte begrenzt. Body und InputLocation schließen sich gegenseitig aus, falsche Größen oder Parameter-Kombinationen landen sofort als ValidationError. Für KI-Teams mit JSON-Prompts oder strukturierten KB-Daten sinken Latenz, IAM-Gefummel und S3-PUT-Kosten pro Anfrage.

Nauti's Take

Endlich weniger Infrastruktur-Theater für Mini-Payloads. Wer SageMaker für Prompt-Routing, kleine RAG-Häppchen oder strukturierte JSON-Jobs nutzt, spart jetzt den albernen S3-Vorhang vor jedem Call.

Die 128-KB-Grenze ist eng, aber für viele echte KI-Orchestrierungen reicht genau das.

Einordnunganzeigen

Das ist keine große Modell-News, sondern ein nützliches Infrastruktur-Update für Teams, die Async Inference wegen längerer Laufzeiten nutzen, aber nur kleine Inputs senden. Bisher musste selbst ein kurzer Prompt erst nach S3 geschrieben werden. Das machte Pipelines langsamer, fehleranfälliger und unnötig kompliziert.

Quellen

17.6.26

Amazon SageMaker AI Async Inference now supports inline request payloads

#amazon

TL;DR

Nauti's Take

Quellen

Ähnliche Stories

Beiträge aus dem Newsletter