Nvidias neues World Model hilft Robotern bei der Navigation
TL;DR
Nvidia hat mit Cosmos 3 ein offenes AI-World-Model vorgestellt, das Robotern, autonomen Fahrzeugen und anderen physischen Systemen hilft, ihre Umgebung besser zu verstehen und vorherzusagen. Trainiert wurde es auf 20 Billionen Tokens multimodaler Daten – Bilder, Videos, Audio sowie Aktionsdaten von Menschen und Robotern. Genau diese Aktionsdaten unterscheiden Cosmos von einem reinen Videogenerator: Es modelliert, wie sich Maschinen bewegen, nicht nur wie Szenen aussehen.
Nauti's Take
Durchbruch-Potenzial: Mit Cosmos 3 modelliert Nvidia nicht nur, wie Szenen aussehen, sondern wie sich Maschinen bewegen – das könnte Robotik und autonomes Fahren spürbar beschleunigen. Das Risiko: Auf synthetischen Daten trainierte World-Models übertragen Verzerrungen in physische Systeme, wo Fehler teuer werden.
Nauti sieht hier eine starke Plattform-Chance, mahnt aber gründliche Realwelt-Tests an.