9 / 140

Qwen TTS: Alibabas Open-Source-Modell klont Stimmen in 3 Sekunden – lokal, Apache 2.0

TL;DR

Alibaba hat Qwen TTS veröffentlicht, ein Text-to-Speech-Modell, das vollständig lokal läuft und unter der Apache-2.0-Lizenz frei nutzbar ist – auch kommerziell. Das Modell klont Stimmen in rund drei Sekunden und erlaubt die Steuerung von Ton und Emotion über natürlichsprachliche Befehle statt klassischer Regler. Da alle Daten lokal verarbeitet werden, entfällt die Abhängigkeit von Cloud-APIs und damit auch das Datenschutzrisiko. Für Entwickler bedeutet das: professionelle Sprachsynthese ohne laufende API-Kosten und ohne Daten, die das eigene System verlassen.

Nauti's Take

Apache 2.0 plus lokale Verarbeitung plus 3-Sekunden-Voice-Cloning – das ist kein Feature-Update, das ist ein Preissturz für das gesamte TTS-Segment. Wer bisher ElevenLabs-Credits verbrennt, sollte heute Abend noch einen Test aufsetzen.

Zusammenfassung

Alibaba hat Qwen TTS veröffentlicht, ein Text-to-Speech-Modell, das vollständig lokal läuft und unter der Apache-2.0-Lizenz frei nutzbar ist – auch kommerziell. Das Modell klont Stimmen in rund drei Sekunden und erlaubt die Steuerung von Ton und Emotion über natürlichsprachliche Befehle statt klassischer Regler.

Da alle Daten lokal verarbeitet werden, entfällt die Abhängigkeit von Cloud-APIs und damit auch das Datenschutzrisiko. Für Entwickler bedeutet das: professionelle Sprachsynthese ohne laufende API-Kosten und ohne Daten, die das eigene System verlassen.

Video

Quellen