1 / 189

Microsoft Research stellt Phi-4-reasoning-vision-15B offen und multimodal

TL;DR

Microsoft Research bringt Phi-4-reasoning-vision-15B, ein offenes 15-Milliarden-Parameter-Multimodalmodell, zu Microsoft Foundry, HuggingFace und GitHub. Es verknüpft Bildverstehen mit Phi-4-Reasoningfähigkeiten für Captioning, Bildfragen und vernetzte Szenenerzählungen. Die Begleitdokumentation zerlegt die Trainingslektionen, etwa sukzessives Curriculum und dedizierte Vision-Language-Pipelines, um stabile Reasoning-Kooperation zu sichern. Für KI-Teams markiert die offene Gewichtung eine neue Grundlage, um eigene multimodale Prototypen ohne schwarze Boxen zu iterieren.

Nauti's Take

Offene 15B-Weights geben euch nun eine echte Referenz, ob multimodale Reasoning-Pipelines bei euch inhouse ohne Closed-Source-Limits laufen. Wer noch auf hybride Vision-Hacks in ChatGPT-APIs setzt, verpasst die Chance, frei zu experimentieren und Trainingslektionen direkt aus Microsofts Testbett zu übernehmen.

Quellen