Posição atual:fig. início " Biblioteca de ferramentas de IA

Qwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngue

2025-07-05

Biblioteca de ferramentas de IA/modelo básico/modelo de fala

31 0

https://qwenlm.github.io/zh/blog/qwen-tts/

Link diretoVisualização móvel

O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe Qwen da Alibaba Cloud e fornecida por meio da API Qwen. O Qwen-TTS é compatível com mandarim, inglês e três dialetos chineses - Pequim, Xangai e Sichuanês - e oferece sete vozes bilíngues, incluindo Cherry, Ethan, Chelsie, Serena, Dylan (Pequim), Jada (Xangai) e Sunny (Sichuan). Jada (Shanghainese) e Sunny (Sichuanese). Essa ferramenta é adequada para cenários que exigem síntese de fala de alta qualidade, como assistentes de voz e geração de conteúdo de áudio. No futuro, o Qwen-TTS planeja oferecer suporte a mais idiomas e opções de estilo.

Qwen-TTS：支持中文方言和双语的语音合成工具-1

Lista de funções

Oferece suporte à síntese de fala bilíngue em mandarim e chinês/inglês para produzir uma fala natural e suave.
Oferece suporte a três dialetos chineses - Pequim, Xangai e Sichuanês - para preservar as características de sotaque locais.
Oferece sete vozes bilíngues para atender às necessidades personalizadas de diferentes cenários.
Ajusta automaticamente o tom, a velocidade e a emoção da voz para se aproximar da expressão de uma pessoa real.
Os serviços são fornecidos por meio da API do Qwen para facilitar a integração dos desenvolvedores aos aplicativos.
Oferece suporte ao treinamento de conjuntos de dados de fala em larga escala para garantir a alta qualidade e o realismo da saída de fala.
Fornece a função de download de arquivos de áudio, o que é conveniente para os usuários salvarem a voz gerada.

Usando a Ajuda

Preparação para instalação e uso do ambiente

No momento, o Qwen-TTS é servido por meio da API do Qwen, que não requer um modelo instalado localmente, mas exige que uma chave de API seja configurada para invocar o serviço. Abaixo estão as etapas detalhadas para usá-lo:

Obtendo a chave da API
Os usuários precisam primeiro se registrar em uma conta Aliyun e ativar o serviço Qwen API. Faça login na AliCloud Hundred Refinement Platform e solicite DASHSCOPE_API_KEY.
- Visite o site oficial da Aliyun Hundred Refine Platform e clique em "Registrar" ou "Login".
- Localize o serviço de API do Qwen no console e siga as instruções para ativá-lo e obter a chave de API.
- Salve a chave em uma variável de ambiente com o comando:
```
export DASHSCOPE_API_KEY='your_api_key'
```
Instale o ambiente Python necessário
O Qwen-TTS requer chamadas de API via Python, sendo recomendado o Python 3.6 ou superior. Instale as bibliotecas de dependência necessárias:
```
pip install dashscope
pip install requests
```
Certifique-se de que a conexão de rede esteja estável para evitar tempos limite de chamadas à API.

Chamando a API do Qwen-TTS para gerar fala
O Qwen-TTS fornece uma interface Python simples para a conversão de texto em fala. Abaixo está um código de amostra básico:

import os
import requests
import dashscope
def get_api_key():
api_key = os.getenv("DASHSCOPE_API_KEY")
if not api_key:
raise EnvironmentError("DASHSCOPE_API_KEY environment variable not set.")
return api_key
def synthesize_speech(text, voice="Dylan", model="qwen-tts-latest"):
api_key = get_api_key()
try:
response = dashscope.audio.qwen_tts.SpeechSynthesizer.call(
model=model,
api_key=api_key,
text=text,
voice=voice
)
if response is None:
raise RuntimeError("API call returned None response")
if response.output is None:
raise RuntimeError("API call failed: response.output is None")
if not hasattr(response.output, 'audio') or response.output.audio is None:
raise RuntimeError("API call failed: response.output.audio is None or missing")
audio_url = response.output.audio["url"]
return audio_url
except Exception as e:
raise RuntimeError(f"Speech synthesis failed: {e}")
def download_audio(audio_url, save_path):
try:
resp = requests.get(audio_url, timeout=10)
resp.raise_for_status()
with open(save_path, 'wb') as f:
f.write(resp.content)
print(f"Audio file saved to: {save_path}")
except Exception as e:
raise RuntimeError(f"Download failed: {e}")
def main():
text = "哟，您猜怎么着？今儿个我看NBA，库里投篮跟闹着玩似的，张手就来，篮筐都得喊他“亲爹”了"
save_path = "downloaded_audio.wav"
try:
audio_url = synthesize_speech(text, voice="Dylan")
download_audio(audio_url, save_path)
except Exception as e:
print(e)
if __name__ == "__main__":
main()

Código Descrição::
- textTexto: Insira o texto a ser convertido, compatível com chinês e inglês mistos.
- voiceVoz: Selecione o tipo de voz, por exemplo, "Dylan" para o estilo Beijing. Outras vozes disponíveis incluem Cherry, Ethan, Chelsie, Serena, Jada, Sunny.
- modelEspecifique o modelo como qwen-tts-latest talvez qwen-tts-2025-05-22.
- save_pathDefina o caminho para salvar o arquivo de áudio gerado no formato WAV.

Seleção de vozes e dialetos
O Qwen-TTS oferece sete vozes, cada uma correspondendo a um estilo e dialeto diferentes:
- Cherry, Ethan, Chelsie, Serena: bilíngue em mandarim e inglês para cenários genéricos.
- Dylan: dialeto de Pequim com sotaque autêntico de Pequim para conteúdo localizado.
- Jada: Xangainês, adequado para usuários em áreas onde se fala Wu.
- Ensolarado: Sichuanês, caracterizado por um sotaque do sudoeste.
  Quando a API é chamada, ela é passada pelo voice especifica o som desejado. Por exemplo, um parâmetro definido como voice="Jada" Gerar voz em xangainês.
Ajuste dos efeitos de voz
O Qwen-TTS ajusta automaticamente a entonação, a velocidade da fala e a emoção com base no texto de entrada, eliminando a necessidade de configurar manualmente os parâmetros. Por exemplo, digitar uma frase com um ponto de exclamação gera uma voz mais dinâmica. Os usuários podem controlar a emoção da voz ajustando o conteúdo do texto, como adicionar entonação ou pontuação.
Salvar e usar o áudio gerado
Os arquivos de áudio retornados pela API são fornecidos como URLs. Os usuários podem acessar os arquivos de áudio por meio do download_audio As funções são baixadas como arquivos WAV e salvas localmente para reprodução, edição ou incorporação em outros aplicativos. Certifique-se de que o caminho de download tenha permissões de gravação.
Tratamento de erros
- Se a chave de API não for definida, o programa lançará a mensagem EnvironmentError. Verifique a configuração da variável de ambiente.
- Se a conexão de rede estiver instável, isso pode causar requests.get Tempo limite. Recomenda-se verificar a rede ou estender o tempo limite (timeout (Parâmetros).
- Se o URL de áudio retornado for inválido, certifique-se de inserir o texto e os parâmetros de som corretos.

Precauções de uso

Certifique-se de que o texto seja claro e evite frases muito complexas para otimizar a fonética.
As chamadas de API exigem um ambiente de rede estável e recomenda-se que sejam executadas em um servidor ou dispositivo de alto desempenho.
Atualmente, o Qwen-TTS está disponível apenas por meio da API e não oferece suporte ao uso off-line no momento.
As versões futuras poderão oferecer suporte a mais idiomas e estilos de som, portanto, recomendamos acompanhar o blog oficial para obter atualizações.

cenário do aplicativo

Desenvolvimento do assistente de voz
O Qwen-TTS pode ser usado para desenvolver assistentes de voz inteligentes que suportem os idiomas chinês e inglês e dialetos para cenários localizados. Por exemplo, desenvolver um assistente de voz no dialeto de Pequim para oferecer uma experiência de serviço amigável aos usuários locais.
Produção de audiolivros e podcasts
Use o Qwen-TTS para converter romances ou artigos em audiolivros, com uma variedade de opções de voz para atender às preferências de diferentes ouvintes. As versões em xangainês ou sichuanês estão disponíveis para agradar a regiões específicas.
Geração de conteúdo educacional
O Qwen-TTS pode ser usado em plataformas de educação on-line para criar áudio de ensino bilíngue e adequado para o aprendizado de idiomas ou programas interculturais.
Locuções para anúncios e promoções
As empresas podem usar o Qwen-TTS para gerar fala natural para seus vídeos publicitários, escolhendo uma versão de dialeto para aprimorar as características locais e melhorar a facilidade de uso.
Vozes de jogos e personagens virtuais
Os desenvolvedores de jogos podem dar voz a seus personagens, combinando dialeto e expressão emocional para criar avatares mais realistas.

QA

Quais idiomas e dialetos são compatíveis com o Qwen-TTS?
Compatível com mandarim, inglês e três dialetos chineses: Pequim, Xangai e Sichuan. Mais idiomas poderão ser suportados no futuro.
Como faço para escolher sons diferentes?
Em uma chamada de API por meio do voice especifica o nome do som, como voice="Dylan"(dialeto de Pequim) ou voice="Sunny"(falando sichuanês)
Preciso instalar o modelo localmente?
Não é necessário, o Qwen-TTS é executado na nuvem por meio da API do Qwen, basta configurar a chave da API.
O áudio gerado pode ser salvo?
Sim, a API retorna o URL do áudio, que pode ser baixado como um arquivo WAV pelo usuário por meio do código e salvo localmente.
Como posso otimizar a naturalidade da minha voz?
Digite um texto claro, devidamente pontuado e flexionado, e o Qwen-TTS ajustará automaticamente a entonação e a emoção para produzir uma voz mais natural.

Qwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngue

Lista de funções

Usando a Ajuda

Preparação para instalação e uso do ambiente

Precauções de uso

cenário do aplicativo

QA

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas recomendadas

Novos lançamentos

Qwen-TTS: uma ferramenta de síntese de fala com dialeto chinês e suporte bilíngue

Lista de funções

Usando a Ajuda

Preparação para instalação e uso do ambiente

Precauções de uso

cenário do aplicativo

QA

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas recomendadas

Novos lançamentos

Ferramenta de IA da estação de consulta rápida