3 / 1483

AWS streicht den S3-Umweg für kleine SageMaker-Async-Inputs

TL;DR

Amazon SageMaker Async Inference akzeptiert jetzt Payloads direkt im InvokeEndpointAsync-Request. Für kleine Eingaben entfällt damit der vorher nötige Upload nach S3; Inline-Payloads sind auf 128.000 Byte begrenzt. Body und InputLocation schließen sich gegenseitig aus, falsche Größen oder Parameter-Kombinationen landen sofort als ValidationError. Für KI-Teams mit JSON-Prompts oder strukturierten KB-Daten sinken Latenz, IAM-Gefummel und S3-PUT-Kosten pro Anfrage.

Nauti's Take

Endlich weniger Infrastruktur-Theater für Mini-Payloads. Wer SageMaker für Prompt-Routing, kleine RAG-Häppchen oder strukturierte JSON-Jobs nutzt, spart jetzt den albernen S3-Vorhang vor jedem Call.

Die 128-KB-Grenze ist eng, aber für viele echte KI-Orchestrierungen reicht genau das.

Einordnunganzeigen

Das ist keine große Modell-News, sondern ein nützliches Infrastruktur-Update für Teams, die Async Inference wegen längerer Laufzeiten nutzen, aber nur kleine Inputs senden. Bisher musste selbst ein kurzer Prompt erst nach S3 geschrieben werden. Das machte Pipelines langsamer, fehleranfälliger und unnötig kompliziert.

Quellen