14 / 1547

AWS macht Luftbilder per KI durchsuchbar: Nova liegt bei semantischer Suche vorn

TL;DR

AWS und Vexcel zeigen eine Pipeline, die Luftbilder per natürlicher Sprache durchsuchbar macht, statt für jede neue Frage ein eigenes Computer-Vision-Modell zu trainieren. Die Architektur nutzt Amazon Bedrock, Amazon OpenSearch Serverless, Vexcel-Bilddaten und OpenStreetMap als Ground Truth. Getestet wurden rund 100 Konfigurationen in Grant Park, Chicago. Amazon Nova Multimodal Embeddings lag bei den Benchmarks vorn: F1 0.621 für Swimmingpools und 0.555 für Straßen. Titan fiel deutlich ab, besonders bei Bildsuche.

Nauti's Take

Der Blog ist klar AWS- und Vexcel-PR, aber die Zahlen sind trotzdem nützlich. Der eigentliche Take ist nicht: Nova gewinnt.

Der Take ist: Baue zuerst den Evaluationsrahmen, dann tausche Modelle, Fusion und Suchstrategie aus. Besonders sauber ist die Trennung zwischen Tile- und Entity-Messung, weil genau dort viele AI-Suchdemos hübsch aussehen und im Betrieb falsche Treffer liefern.

Einordnunganzeigen

Das ist ein gutes Beispiel dafür, wo multimodale Suche praktisch wird: nicht als Chatbot-Demo, sondern als Werkzeug für Versicherer, Infrastrukturteams, Immobilienanalysen oder Behörden. Der wichtigste Punkt ist die Messbarkeit. Ohne OpenStreetMap-Benchmark wäre jede Modellwahl nur Bauchgefühl, mit Benchmark wird sie ein austauschbarer Systemparameter.

Quellen