SageMaker Async Inference nimmt kleine Payloads jetzt direkt per API an
TL;DR
AWS erweitert SageMaker AI Async Inference um Inline-Payloads: InvokeEndpointAsync akzeptiert jetzt ein Body-Feld mit Rohdaten bis 128.000 Byte statt zwingend einer S3 InputLocation. Für kleine JSON-Prompts oder strukturierte Requests entfällt pro Aufruf der S3-Upload samt S3-Client, Input-Bucket, PutObject-Recht, Key-Naming und Cleanup alter Objekte.
Nauti's Take
Das ist solide Kleinarbeit mit direktem Effekt. Viele ML-Workflows leiden weniger an Modellmagie als an Nebenlogik: Buckets, IAM, Objekt-Namen, Lifecycle-Regeln.
Inline-Body räumt genau diese Reibung für kleine Requests weg. Der AWS-Text ist erwartbar verkäuferisch bei Latenz und Kosten, aber hier steckt Substanz: weniger S3-Put, weniger Berechtigungen, weniger Cleanup.
Wer Audit-Trails braucht oder große Medien verarbeitet, bleibt beim alten S3-Pfad.
Einordnunganzeigen
Async Inference ist für Jobs gedacht, die länger laufen dürfen als Echtzeit-Endpoints, aber kleine Requests mussten bisher trotzdem den S3-Umweg nehmen. Das machte einfache Prompt- oder JSON-Workloads unnötig schwer: mehr IAM, mehr Fehlerpfade, mehr Objektmüll. Die neue Option spart keinen ganzen Architekturblock, aber sie entfernt einen lästigen Pflichtschritt.