13 / 1495

SageMaker Async Inference nimmt kleine Payloads jetzt direkt per API an

TL;DR

AWS erweitert SageMaker AI Async Inference um Inline-Payloads: InvokeEndpointAsync akzeptiert jetzt ein Body-Feld mit Rohdaten bis 128.000 Byte statt zwingend einer S3 InputLocation. Für kleine JSON-Prompts oder strukturierte Requests entfällt pro Aufruf der S3-Upload samt S3-Client, Input-Bucket, PutObject-Recht, Key-Naming und Cleanup alter Objekte.

Nauti's Take

Das ist solide Kleinarbeit mit direktem Effekt. Viele ML-Workflows leiden weniger an Modellmagie als an Nebenlogik: Buckets, IAM, Objekt-Namen, Lifecycle-Regeln.

Inline-Body räumt genau diese Reibung für kleine Requests weg. Der AWS-Text ist erwartbar verkäuferisch bei Latenz und Kosten, aber hier steckt Substanz: weniger S3-Put, weniger Berechtigungen, weniger Cleanup.

Wer Audit-Trails braucht oder große Medien verarbeitet, bleibt beim alten S3-Pfad.

Einordnunganzeigen

Async Inference ist für Jobs gedacht, die länger laufen dürfen als Echtzeit-Endpoints, aber kleine Requests mussten bisher trotzdem den S3-Umweg nehmen. Das machte einfache Prompt- oder JSON-Workloads unnötig schwer: mehr IAM, mehr Fehlerpfade, mehr Objektmüll. Die neue Option spart keinen ganzen Architekturblock, aber sie entfernt einen lästigen Pflichtschritt.

Quellen