Show HN: SoMatic – Vision-basiertes OS-Automation-Framework für AI Agents
TL;DR
Smyan stellt SoMatic vor, ein Vision-basiertes Framework, das AI Agents zuverlässig native Betriebssysteme steuern lässt. Das Kernproblem: Multimodale LLMs sind stark in der Wahrnehmung, aber schwach bei der Lokalisierung — RPA-Setups brechen, sobald ein Agent sie übernehmen soll. Im Browser wurde das durch DOM-Hinweise und Set-of-Marks-Prompting gelöst, sodass das Modell einfach 'click 4' sagt statt 'click 443 213'.
Nauti's Take
Spannend: SoMatic geht ein echtes Bottleneck an — LLMs sehen alles, treffen aber den Klick selten genau, und auf OS-Ebene fehlt bisher eine saubere Tooling-Schicht. Der Haken: Das Framework steht und fällt mit der Vision-Lokalisierung, ohne saubere Accessibility-Daten bleibt jede Aktion fragil.
Für Builder lohnt sich der Blick — produktive Workloads sollte man aber noch nicht blind an Desktop-Agents übergeben.