2 / 361

Xybrid: LLMs und Speech lokal in deine App einbetten – kein Backend, kein Server

TL;DR

Xybrid ist eine Rust-Bibliothek, die LLM- und Speech-Pipelines direkt in die eigene App einbettet – kein Server, kein Daemon, nur eine Binary.

Key Points

  • Unterstützt GGUF, ONNX und CoreML; Integrationen für Flutter, Swift, Kotlin, Unity und Tauri sind dabei.
  • Auf aktuellen Smartphones erreicht die Lib etwa 20 tok/s (Android) und 40 tok/s (iOS) bei quantisierten ~3B-Modellen.
  • Demo: 6 NPCs in einer Unity-Taverne führen echtzeitgenerierte Dialoge vollständig on-device – ohne API-Key, ohne Internet, ohne laufende Kosten.

Nauti's Take

Dass ausgerechnet ein Unity-Tavern-Demo mit sechs sprechenden NPCs der überzeugendste Beweis für eine ernsthafte Infrastruktur-Bibliothek ist, sagt viel darüber aus, wie weit On-device-KI inzwischen gekommen ist. Xybrid löst ein echtes Problem: Der 'kein separater Server'-Ansatz klingt trivial, ist aber in der Praxis der größte Stolperstein bei eingebetteten KI-Features.

Die 40 tok/s auf iOS sind beeindruckend – solange man im 3B-Bereich bleibt und nicht erwartet, dass ein Mittelklasse-Android-Phone GPT-4-Niveau liefert. Open-Source in Rust, breite Plattform-Unterstützung, klare Positionierung: Das ist kein Hype-Projekt, das verdient einen zweiten Blick.

Video

Quellen