tech-pub

SageMaker Async Inference nimmt kleine Payloads jetzt direkt per API an

17. Juni 2026 um 20:56Aktualisiert: 18. Juni1 Quellen

TL;DR

AWS erweitert SageMaker AI Async Inference um Inline-Payloads: InvokeEndpointAsync akzeptiert jetzt ein Body-Feld mit Rohdaten bis 128.000 Byte statt zwingend einer S3 InputLocation. Für kleine JSON-Prompts oder strukturierte Requests entfällt pro Aufruf der S3-Upload samt S3-Client, Input-Bucket, PutObject-Recht, Key-Naming und Cleanup alter Objekte.

Nauti's Take

Das ist solide Kleinarbeit mit direktem Effekt. Viele ML-Workflows leiden weniger an Modellmagie als an Nebenlogik: Buckets, IAM, Objekt-Namen, Lifecycle-Regeln.

Inline-Body räumt genau diese Reibung für kleine Requests weg. Der AWS-Text ist erwartbar verkäuferisch bei Latenz und Kosten, aber hier steckt Substanz: weniger S3-Put, weniger Berechtigungen, weniger Cleanup.

Wer Audit-Trails braucht oder große Medien verarbeitet, bleibt beim alten S3-Pfad.

Einordnunganzeigen

Async Inference ist für Jobs gedacht, die länger laufen dürfen als Echtzeit-Endpoints, aber kleine Requests mussten bisher trotzdem den S3-Umweg nehmen. Das machte einfache Prompt- oder JSON-Workloads unnötig schwer: mehr IAM, mehr Fehlerpfade, mehr Objektmüll. Die neue Option spart keinen ganzen Architekturblock, aber sie entfernt einen lästigen Pflichtschritt.

Quellen

17.6.26

Amazon SageMaker AI Async Inference now supports inline request payloads

#amazon

TL;DR

Nauti's Take

Quellen

Ähnliche Stories

Beiträge aus dem Newsletter