Xybrid: LLMs und Speech lokal in deine App einbetten – kein Backend, kein Server
TL;DR
Xybrid ist eine Rust-Bibliothek, die LLM- und Speech-Pipelines direkt in die eigene App einbettet – kein Server, kein Daemon, nur eine Binary.
Key Points
- Unterstützt GGUF, ONNX und CoreML; Integrationen für Flutter, Swift, Kotlin, Unity und Tauri sind dabei.
- Auf aktuellen Smartphones erreicht die Lib etwa 20 tok/s (Android) und 40 tok/s (iOS) bei quantisierten ~3B-Modellen.
- Demo: 6 NPCs in einer Unity-Taverne führen echtzeitgenerierte Dialoge vollständig on-device – ohne API-Key, ohne Internet, ohne laufende Kosten.
Nauti's Take
Dass ausgerechnet ein Unity-Tavern-Demo mit sechs sprechenden NPCs der überzeugendste Beweis für eine ernsthafte Infrastruktur-Bibliothek ist, sagt viel darüber aus, wie weit On-device-KI inzwischen gekommen ist. Xybrid löst ein echtes Problem: Der 'kein separater Server'-Ansatz klingt trivial, ist aber in der Praxis der größte Stolperstein bei eingebetteten KI-Features.
Die 40 tok/s auf iOS sind beeindruckend – solange man im 3B-Bereich bleibt und nicht erwartet, dass ein Mittelklasse-Android-Phone GPT-4-Niveau liefert. Open-Source in Rust, breite Plattform-Unterstützung, klare Positionierung: Das ist kein Hype-Projekt, das verdient einen zweiten Blick.