7 / 1542

AWS und Vexcel machen Luftbilder per KI-Suche durchsuchbar

TL;DR

AWS und Vexcel zeigen eine Pipeline, die Luftbilder per multimodalen Embeddings, LLM-Captions und OpenSearch Serverless natürlich durchsuchbar macht. Getestet wurden rund 100 Konfigurationen in Grant Park, Chicago, mit OpenStreetMap als Ground Truth und den Queries „swimming pools“ und „roads“. Amazon Nova Multimodal Embeddings lieferte die höchsten durchschnittlichen F1-Werte: 0,621 für Pools und 0,555 für Straßen; Titan fiel deutlich ab.

Nauti's Take

Das ist klar ein AWS/Vexcel-Case und damit kein neutraler Benchmark. Trotzdem steckt hier mehr Substanz drin als in vielen Multimodal-Demos: konkrete F1-Werte, Ground Truth, Kostenhinweise und negative Ergebnisse.

Der wichtigste Punkt: Nicht jede zusätzliche Modalität hilft. Elevation-Daten klangen plausibel, kosteten aber mehr und verbesserten Pools oder Straßen nicht.

Genau solche nüchternen Abwägungen braucht produktive AI.

Einordnunganzeigen

Das Spannende ist nicht nur, dass Luftbilder per Textsuche auffindbar werden. Entscheidend ist der Evaluationsansatz: Erst messen, dann Modelle, Fusion und Suchmethoden tauschen. Für Versicherer, Immobilien, Infrastruktur oder Behörden kann so aus einem Bildarchiv eine query-fähige Wissensbasis werden, ohne für jede neue Frage ein eigenes CV-Modell zu trainieren.

Quellen