111 / 130

Nemotron ColEmbed V2: Die Bar für Multimodal Retrieval mit dem Top-Modell von ViDoRe V3 erhöhen

TL;DR

NVIDIA hat Nemotron ColEmbed V2 veröffentlicht – ein multimodales Retrieval-Modell, das Platz 1 im ViDoRe V3 Benchmark für visuelle Dokumentensuche erreicht.

Key Points

  • Das Modell verarbeitet Text und Bilder gemeinsam und nutzt eine Late-Interaction-Architektur (ColBERT) für Token-Level-Ähnlichkeitsvergleiche
  • ColEmbed V2 übertrifft bisherige Ansätze bei der Suche in visuell komplexen Dokumenten wie PDFs, Präsentationen und Diagrammen
  • Das Modell ist unter Apache-2.0-Lizenz auf Hugging Face verfügbar – ein wichtiger Beitrag zur Open-Source-KI-Forschung

Nauti's Take

NVIDIA liefert hier solide Ingenieurarbeit ab, keine Marketing-Fantasie. Der ViDoRe-Benchmark ist jung (V3 ist gerade mal etabliert), aber Platz 1 ist Platz 1. Interessant ist vor allem die Architektur: Late Interaction skaliert schlechter als Single-Vector-Embeddings, holt dafür aber Nuancen raus, die bei komprimierten Vektoren verloren gehen.

Das Model ist mit ~1,2 Mrd. Parametern relativ klein, trotzdem schlägt es größere Konkurrenten. Apache 2.0 bedeutet: Keine Lizenz-Fallen, echte Nutzbarkeit.

Bleibt die Frage, wie gut es außerhalb von Benchmark-PDFs performt – aber der Code ist da, jeder kann's testen.

Quellen