Qwen-TTSは、Alibaba CloudのQwenチームによって開発され、Qwen APIを通じて提供されるテキスト音声合成(TTS)ツールです。Qwen-TTSは、北京語、英語、3つの中国語方言(北京語、上海語、四川語)をサポートし、チェリー、イーサン、チェルシー、セレナ、ディラン(北京語)、ジェイダ(上海語)、サニー(四川語)の7つのバイリンガル音声を提供します。ジェイダ(上海語)とサニー(四川語)。このツールは、音声アシスタントや音声コンテンツ生成など、高品質な音声合成を必要とするシナリオに適している。将来的には、Qwen-TTSはさらに多くの言語とスタイルオプションをサポートする予定です。
機能一覧
- 標準中国語と中国語/英語のバイリンガル音声合成をサポートし、自然で滑らかな音声を出力します。
- 北京語、上海語、四川語の3つの中国語方言をサポート。
- 7つのバイリンガルボイスで、さまざまなシナリオに対応。
- 声のトーン、スピード、感情を自動的に調整し、実際の人の表情に近づけます。
- サービスは、開発者がアプリケーションに簡単に統合できるよう、Qwen APIを通じて提供されます。
- 高品質でリアルな音声出力を保証するために、大規模な音声データセットのトレーニングをサポートします。
- 音声ファイルのダウンロード機能を提供し、ユーザーが生成された音声を保存するのに便利です。
ヘルプの使用
設置および使用環境の準備
Qwen-TTS は現在 Qwen API 経由で提供されており、ローカルにインストールされたモデルは必要あ りませんが、サービスを呼び出すために API キーを設定する必要があります。以下は、それを使用するための詳細な手順です:
- APIキーの取得
ユーザーはまず、阿里雲アカウントに登録し、Qwen APIサービスを有効にする必要があります。AliCloud百錬プラットフォームにログインし、以下を申請する。DASHSCOPE_API_KEY
.- Aliyun Hundred Refine Platformの公式サイトにアクセスし、"登録 "または "ログイン "をクリックしてください。
- コンソールで Qwen API サービスを見つけ、指示に従って有効化し、API キーを取得します。
- コマンドでキーを環境変数に保存する:
export DASHSCOPE_API_KEY='your_api_key'
- 必要なPython環境をインストールする
Qwen-TTS は Python による API 呼び出しを必要とし、Python 3.6 以上を推奨します。必要な依存ライブラリをインストールしてください:pip install dashscope pip install requests
APIコールのタイムアウトを避けるため、ネットワーク接続が安定していることを確認する。
- Qwen-TTS API を呼び出して音声を生成する
Qwen-TTSは、テキストを音声に変換するためのシンプルなPythonインターフェースを提供します。以下は基本的なサンプルコードです:import os import requests import dashscope def get_api_key(): api_key = os.getenv("DASHSCOPE_API_KEY") if not api_key: raise EnvironmentError("DASHSCOPE_API_KEY environment variable not set.") return api_key def synthesize_speech(text, voice="Dylan", model="qwen-tts-latest"): api_key = get_api_key() try: response = dashscope.audio.qwen_tts.SpeechSynthesizer.call( model=model, api_key=api_key, text=text, voice=voice ) if response is None: raise RuntimeError("API call returned None response") if response.output is None: raise RuntimeError("API call failed: response.output is None") if not hasattr(response.output, 'audio') or response.output.audio is None: raise RuntimeError("API call failed: response.output.audio is None or missing") audio_url = response.output.audio["url"] return audio_url except Exception as e: raise RuntimeError(f"Speech synthesis failed: {e}") def download_audio(audio_url, save_path): try: resp = requests.get(audio_url, timeout=10) resp.raise_for_status() with open(save_path, 'wb') as f: f.write(resp.content) print(f"Audio file saved to: {save_path}") except Exception as e: raise RuntimeError(f"Download failed: {e}") def main(): text = "哟,您猜怎么着?今儿个我看NBA,库里投篮跟闹着玩似的,张手就来,篮筐都得喊他“亲爹”了" save_path = "downloaded_audio.wav" try: audio_url = synthesize_speech(text, voice="Dylan") download_audio(audio_url, save_path) except Exception as e: print(e) if __name__ == "__main__": main()
- コードの説明::
text
変換されるテキストを入力し、中国語と英語の混在をサポートします。voice
声の種類を選択します。例えば、北京スタイルなら "Dylan"。その他、チェリー、イーサン、チェルシー、セレナ、ジェイダ、サニーなどがあります。model
モデルをqwen-tts-latest
もしかしたらqwen-tts-2025-05-22
.save_path
生成された音声ファイルをWAV形式で保存するパスを設定します。
- コードの説明::
- 声と方言の選択
Qwen-TTSは7つの音声を提供し、それぞれが異なるスタイルと方言に対応している:- チェリー、イーサン、チェルシー、セレナ:中国語と英語のバイリンガルで、一般的なシナリオに対応。
- ディラン:本物の北京訛りの北京弁で、ローカライズされたコンテンツに適している。
- ジャダ:上海語で、呉語圏のユーザーに適している。
- 晴天:四川語、南西アクセントが特徴。
APIが呼び出されると、そのAPIはvoice
パラメーターは希望するサウンドを指定する。例えばvoice="Jada"
上海語の音声を生成する。
- 音声エフェクトの調整
Qwen-TTS は、入力テキストに基づいてイントネーション、発話速度、感情を自動的に調整するため、パラメータを手動で設定する必要がありません。例えば、感嘆符付きの文章を入力すると、よりダイナミックな音声が生成されます。ユーザーは、イントネーションや句読点の追加など、テキストの内容を調整することで、音声の感情をコントロールすることができます。 - 生成されたオーディオの保存と使用
APIが返す音声ファイルはURLとして提供されます。ユーザーはdownload_audio
機能はWAVファイルとしてダウンロードされ、再生、編集、他のアプリケーションへの組み込みのためにローカルに保存されます。ダウンロードパスに書き込み権限があることを確認してください。 - エラー処理
- APIキーが設定されていない場合、プログラムは
EnvironmentError
.環境変数の設定を確認してください。 - ネットワーク接続が不安定な場合、次のような問題が発生する可能性があります。
requests.get
タイムアウト。ネットワークをチェックするか、タイムアウトを延長することを推奨する (timeout
(パラメータ)。 - 返されたオーディオURLが無効な場合は、正しいテキストとサウンドパラメータを入力してください。
- APIキーが設定されていない場合、プログラムは
使用上の注意
- フォニックスを最適化するために、文章は明瞭にし、複雑すぎる文章は避ける。
- APIコールは安定したネットワーク環境を必要とするため、サーバーまたは高性能デバイスでの実行を推奨する。
- 現在、Qwen-TTSはAPI経由でのみ利用可能で、オフラインでの使用はサポートされていません。
- 今後のバージョンでは、さらに多くの言語やサウンドスタイルに対応する可能性があるので、公式ブログで最新情報をチェックすることをお勧めする。
アプリケーションシナリオ
- 音声アシスタント開発
Qwen-TTSは、ローカライズされたシナリオのために、中国語と英語の両方の言語や方言をサポートするインテリジェントな音声アシスタントを開発するために使用することができます。例えば、北京方言の音声アシスタントを開発することで、現地のユーザーにフレンドリーなサービス体験を提供することができます。 - オーディオブックとポッドキャストの制作
Qwen-TTSを使って、小説や記事をオーディオブックに変換しましょう。聞き手の好みに合わせて、さまざまな音声オプションが選べます。特定の地域にアピールするために、上海語版と四川語版があります。 - 教育コンテンツの生成
Qwen-TTSはオンライン教育プラットフォームで使用することができ、バイリンガルで言語学習や異文化交流プログラムに適した教育用音声を作成することができます。 - 広告やプロモーションのボイスオーバー
企業はQwen-TTSを使用して広告ビデオの自然な音声を生成し、方言バージョンを選択することで、地域の特性を強化し、ユーザーの利便性を向上させることができます。 - ゲームとバーチャルキャラクターの声
ゲーム開発者は、方言と感情表現を組み合わせることで、よりリアルなアバターを作ることができる。
品質保証
- Qwen-TTSはどのような言語や方言をサポートしていますか?
北京語、英語、3つの中国語方言(北京語、上海語、四川語)をサポート。将来的にはさらに多くの言語に対応する可能性があります。 - 異なるサウンドを選ぶには?
APIコールでvoice
パラメータは、次のようにサウンド名を指定します。voice="Dylan"
(北京語)またはvoice="Sunny"
(四川語を話す) - モデルをローカルにインストールする必要がありますか?
必須ではありませんが、Qwen-TTS は Qwen API を介してクラウド上で動作します。 - 生成された音声は保存できますか?
はい、APIはオーディオのURLを返し、ユーザーがコードを通してWAVファイルとしてダウンロードし、ローカルに保存することができます。 - 自分の声の自然さを最適化するには?
明瞭で適切な句読点と抑揚のあるテキストを入力すると、Qwen-TTSは自動的にイントネーションと感情を調整し、より自然な音声を生成します。