14 / 1547

AWS testet KI-Suche für Luftbilder: Captions schlagen reine Vektorsuche

TL;DR

AWS und Vexcel zeigen eine Pipeline, die Luftbilder per multimodaler Suche durchsuchbar macht: Amazon Bedrock erzeugt Bild-Embeddings und optional Captions, Amazon OpenSearch Serverless übernimmt die Vektorsuche. Getestet wurden rund 100 Konfigurationen im Grant Park in Chicago, mit OpenStreetMap als Ground Truth und zwei Benchmarks: Swimming Pools als klar erkennbare Objekte und Straßen als verteilte Infrastruktur.

Nauti's Take

Das ist ein AWS-Blog und damit natürlich auch Produkt-PR. Trotzdem steckt ein brauchbarer Praxispunkt darin: Multimodale Suche wird erst dann ernsthaft, wenn man sie gegen harte Ground Truth misst und nicht nur schöne Demo-Queries zeigt.

Besonders relevant ist die Caption-Erkenntnis: Bilder allein reichen nicht, Text allein auch nicht. Wer eigene visuelle Archive durchsuchbar machen will, sollte weniger über Agenten reden und zuerst Index, Evaluationsset und Kostenmodell sauber bauen.

Einordnunganzeigen

Das Spannende ist nicht die AWS-Produktliste, sondern der Wechsel von Spezialmodell zu Suchsystem: Einmal indexieren, dann natürlichsprachlich fragen. Für Versicherer, Städte, Immobilien- oder Infrastrukturteams kann das manuelle Kartenkacheln-Prüfen ersetzen oder stark verkürzen. Gleichzeitig zeigt der Test, dass Evaluation vor Optimierung kommen muss, sonst optimiert man nur nach Bauchgefühl.

Quellen