Qwen-TTS ist ein Text-to-Speech-Tool (TTS), das vom Qwen-Team von Alibaba Cloud entwickelt und über die Qwen-API bereitgestellt wird. Qwen-TTS unterstützt Mandarin, Englisch und drei chinesische Dialekte - Peking, Shanghainesisch und Sichuanesisch - und bietet sieben zweisprachige Stimmen, darunter Cherry, Ethan, Chelsie, Serena, Dylan (Peking), Jada (Shanghainesisch) und Sunny (Sichuan). Jada (Shanghainesisch) und Sunny (Szechuanisch). Dieses Tool eignet sich für Szenarien, die eine hochwertige Sprachsynthese erfordern, wie z. B. Sprachassistenten und die Erstellung von Audioinhalten. Für die Zukunft plant Qwen-TTS die Unterstützung weiterer Sprachen und Stiloptionen.
Funktionsliste
- Unterstützt die zweisprachige Sprachsynthese in Mandarin und Chinesisch/Englisch für eine natürliche und flüssige Sprachausgabe.
- Unterstützt drei chinesische Dialekte - Peking, Shanghainesisch und Sichuanesisch -, um lokale Akzentmerkmale zu erhalten.
- Bietet sieben zweisprachige Stimmen, um den individuellen Anforderungen verschiedener Szenarien gerecht zu werden.
- Passt den Tonfall, die Geschwindigkeit und die Emotionen der Stimme automatisch so an, dass sie dem Ausdruck einer echten Person entsprechen.
- Die Dienste werden über die Qwen-API bereitgestellt, damit sie von Entwicklern leicht in Anwendungen integriert werden können.
- Unterstützt das Training umfangreicher Sprachdatensätze, um eine hohe Qualität und Realitätsnähe der Sprachausgabe zu gewährleisten.
- Bietet eine Funktion zum Herunterladen von Audiodateien, mit der die Benutzer die erzeugte Stimme bequem speichern können.
Hilfe verwenden
Vorbereitung für die Installation und Nutzung der Umgebung
Qwen-TTS wird derzeit über die Qwen-API bereitgestellt, die kein lokal installiertes Modell erfordert, aber einen API-Schlüssel, der zum Aufrufen des Dienstes konfiguriert werden muss. Nachfolgend finden Sie die detaillierten Schritte zur Nutzung des Dienstes:
- Abrufen des API-Schlüssels
Benutzer müssen sich zunächst für ein Aliyun-Konto registrieren und den Qwen-API-Dienst aktivieren. Melden Sie sich bei der AliCloud Hundred Refinement Platform an und beantragen SieDASHSCOPE_API_KEY
.- Besuchen Sie die offizielle Website von Aliyun Hundred Refine Platform und klicken Sie auf "Registrieren" oder "Anmelden".
- Suchen Sie den Qwen API-Dienst in der Konsole und folgen Sie den Anweisungen, um ihn zu aktivieren und den API-Schlüssel zu erhalten.
- Speichern Sie den Schlüssel mit dem Befehl in einer Umgebungsvariablen:
export DASHSCOPE_API_KEY='your_api_key'
- Installieren Sie die erforderliche Python-Umgebung
Qwen-TTS benötigt API-Aufrufe über Python, Python 3.6 oder höher wird empfohlen. Installieren Sie die erforderlichen Abhängigkeits-Bibliotheken:pip install dashscope pip install requests
Stellen Sie sicher, dass die Netzwerkverbindung stabil ist, um Zeitüberschreitungen beim API-Aufruf zu vermeiden.
- Aufrufen der Qwen-TTS API zur Erzeugung von Sprache
Qwen-TTS bietet eine einfache Python-Schnittstelle für die Umwandlung von Text in Sprache. Im Folgenden finden Sie einen einfachen Beispielcode:import os import requests import dashscope def get_api_key(): api_key = os.getenv("DASHSCOPE_API_KEY") if not api_key: raise EnvironmentError("DASHSCOPE_API_KEY environment variable not set.") return api_key def synthesize_speech(text, voice="Dylan", model="qwen-tts-latest"): api_key = get_api_key() try: response = dashscope.audio.qwen_tts.SpeechSynthesizer.call( model=model, api_key=api_key, text=text, voice=voice ) if response is None: raise RuntimeError("API call returned None response") if response.output is None: raise RuntimeError("API call failed: response.output is None") if not hasattr(response.output, 'audio') or response.output.audio is None: raise RuntimeError("API call failed: response.output.audio is None or missing") audio_url = response.output.audio["url"] return audio_url except Exception as e: raise RuntimeError(f"Speech synthesis failed: {e}") def download_audio(audio_url, save_path): try: resp = requests.get(audio_url, timeout=10) resp.raise_for_status() with open(save_path, 'wb') as f: f.write(resp.content) print(f"Audio file saved to: {save_path}") except Exception as e: raise RuntimeError(f"Download failed: {e}") def main(): text = "哟,您猜怎么着?今儿个我看NBA,库里投篮跟闹着玩似的,张手就来,篮筐都得喊他“亲爹”了" save_path = "downloaded_audio.wav" try: audio_url = synthesize_speech(text, voice="Dylan") download_audio(audio_url, save_path) except Exception as e: print(e) if __name__ == "__main__": main()
- Code Beschreibung::
text
Eingabe des zu konvertierenden Textes, unterstützt gemischtes Chinesisch und Englisch.voice
Wählen Sie den Stimmtyp aus, z. B. "Dylan" für den Peking-Stil. Andere verfügbare Stimmen sind Cherry, Ethan, Chelsie, Serena, Jada, Sunny.model
: Geben Sie das Modell an alsqwen-tts-latest
vielleichtqwen-tts-2025-05-22
.save_path
Legen Sie den Pfad zum Speichern der erzeugten Audiodatei im WAV-Format fest.
- Code Beschreibung::
- Auswahl von Stimmen und Dialekten
Qwen-TTS bietet sieben Stimmen, die jeweils einem anderen Stil und Dialekt entsprechen:- Cherry, Ethan, Chelsie, Serena: Zweisprachig in Mandarin und Englisch für generische Szenarien.
- Dylan: Pekinger Dialekt mit einem authentischen Pekinger Akzent, geeignet für lokalisierte Inhalte.
- Jada: Shanghainesisch, geeignet für Benutzer in Wu-sprachigen Gebieten.
- Sonnig: Sichuanisch, mit einem südwestlichen Akzent.
Wenn die API aufgerufen wird, wird sie durch dievoice
Parameter gibt den gewünschten Klang an. Zum Beispiel kann ein Parameter, der aufvoice="Jada"
Erzeugt Shanghainesische Stimme.
- Einstellung der Stimmeffekte
Qwen-TTS passt Intonation, Sprechgeschwindigkeit und Emotionen automatisch an den eingegebenen Text an, so dass die Parameter nicht mehr manuell konfiguriert werden müssen. Wenn Sie zum Beispiel einen Satz mit einem Ausrufezeichen eingeben, wird eine dynamischere Stimme erzeugt. Der Benutzer kann die Emotion der Stimme steuern, indem er den Textinhalt anpasst, z. B. durch Hinzufügen von Intonation oder Interpunktion. - Speichern und Verwenden von generiertem Audio
Die von der API zurückgegebenen Audiodateien werden als URLs bereitgestellt. Benutzer können auf die Audiodateien über diedownload_audio
Die Funktionen werden als WAV-Dateien heruntergeladen und zur Wiedergabe, Bearbeitung oder Einbettung in andere Anwendungen lokal gespeichert. Stellen Sie sicher, dass der Download-Pfad über Schreibrechte verfügt. - Fehlerbehandlung
- Wenn der API-Schlüssel nicht gesetzt ist, löst das Programm den
EnvironmentError
. Bitte überprüfen Sie die Konfiguration der Umgebungsvariablen. - Wenn die Netzwerkverbindung instabil ist, kann dies zu
requests.get
Zeitüberschreitung. Es wird empfohlen, das Netzwerk zu überprüfen oder den Timeout zu verlängern (timeout
(Parameter). - Wenn die zurückgegebene Audio-URL ungültig ist, vergewissern Sie sich, dass Sie den richtigen Text und die richtigen Tonparameter eingeben.
- Wenn der API-Schlüssel nicht gesetzt ist, löst das Programm den
Vorsichtsmaßnahmen für die Verwendung
- Achten Sie darauf, dass der Text klar ist und vermeiden Sie übermäßig komplexe Sätze, um die Phonetik zu optimieren.
- API-Aufrufe erfordern eine stabile Netzwerkumgebung und werden am besten auf einem Server oder einem Hochleistungsgerät ausgeführt.
- Derzeit ist Qwen-TTS nur über die API verfügbar, und die Offline-Nutzung wird derzeit nicht unterstützt.
- Zukünftige Versionen werden möglicherweise weitere Sprachen und Klangstile unterstützen, daher empfehlen wir, den offiziellen Blog für Updates zu verfolgen.
Anwendungsszenario
- Entwicklung von Sprachassistenten
Qwen-TTS kann zur Entwicklung intelligenter Sprachassistenten verwendet werden, die sowohl chinesische als auch englische Sprachen und Dialekte für lokalisierte Szenarien unterstützen. Zum Beispiel die Entwicklung eines Sprachassistenten im Pekinger Dialekt, der ein freundliches Serviceerlebnis für lokale Nutzer bietet. - Produktion von Hörbüchern und Podcasts
Verwenden Sie Qwen-TTS, um Romane oder Artikel in Hörbücher umzuwandeln, mit einer Vielzahl von Sprachoptionen, die den Vorlieben der verschiedenen Hörer entsprechen. Um bestimmte Regionen anzusprechen, sind Versionen in Shanghainesisch oder Sichuanesisch verfügbar. - Erstellung von Bildungsinhalten
Qwen-TTS kann in Online-Bildungsplattformen eingesetzt werden, um zweisprachige Lehrtexte zu erstellen, die für das Erlernen von Sprachen oder für interkulturelle Programme geeignet sind. - Voice-over für Werbung und Verkaufsförderung
Unternehmen können Qwen-TTS nutzen, um natürliche Sprache für ihre Werbevideos zu generieren, wobei sie eine Dialektversion wählen können, um lokale Besonderheiten hervorzuheben und die Benutzerfreundlichkeit zu verbessern. - Stimmen für Spiele und virtuelle Charaktere
Spieleentwickler können ihren Charakteren eine Stimme geben und Dialekt und emotionalen Ausdruck kombinieren, um realistischere Avatare zu schaffen.
QA
- Welche Sprachen und Dialekte werden von Qwen-TTS unterstützt?
Unterstützt Mandarin, Englisch und drei chinesische Dialekte: Peking, Shanghai und Sichuan. In Zukunft werden möglicherweise weitere Sprachen unterstützt. - Wie wähle ich verschiedene Sounds aus?
Bei einem API-Aufruf über dievoice
Parameter gibt den Namen des Tons an, z. B.voice="Dylan"
(Peking-Dialekt) odervoice="Sunny"
(spricht sichuanisch) - Muss ich das Modell lokal installieren?
Nicht erforderlich, Qwen-TTS läuft in der Cloud über die Qwen API, konfigurieren Sie einfach den API-Schlüssel. - Kann das erzeugte Audio gespeichert werden?
Ja, die API gibt die Audio-URL zurück, die vom Nutzer über den Code als WAV-Datei heruntergeladen und lokal gespeichert werden kann. - Wie kann ich die Natürlichkeit meiner Stimme optimieren?
Geben Sie einen klaren, korrekt interpunktierten und flektierten Text ein, und Qwen-TTS passt Intonation und Emotionen automatisch an, um eine natürlich klingende Stimme zu erzeugen.