O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe Qwen da Alibaba Cloud e fornecida por meio da API Qwen. O Qwen-TTS é compatível com mandarim, inglês e três dialetos chineses - Pequim, Xangai e Sichuanês - e oferece sete vozes bilíngues, incluindo Cherry, Ethan, Chelsie, Serena, Dylan (Pequim), Jada (Xangai) e Sunny (Sichuan). Jada (Shanghainese) e Sunny (Sichuanese). Essa ferramenta é adequada para cenários que exigem síntese de fala de alta qualidade, como assistentes de voz e geração de conteúdo de áudio. No futuro, o Qwen-TTS planeja oferecer suporte a mais idiomas e opções de estilo.
Lista de funções
- Oferece suporte à síntese de fala bilíngue em mandarim e chinês/inglês para produzir uma fala natural e suave.
- Oferece suporte a três dialetos chineses - Pequim, Xangai e Sichuanês - para preservar as características de sotaque locais.
- Oferece sete vozes bilíngues para atender às necessidades personalizadas de diferentes cenários.
- Ajusta automaticamente o tom, a velocidade e a emoção da voz para se aproximar da expressão de uma pessoa real.
- Os serviços são fornecidos por meio da API do Qwen para facilitar a integração dos desenvolvedores aos aplicativos.
- Oferece suporte ao treinamento de conjuntos de dados de fala em larga escala para garantir a alta qualidade e o realismo da saída de fala.
- Fornece a função de download de arquivos de áudio, o que é conveniente para os usuários salvarem a voz gerada.
Usando a Ajuda
Preparação para instalação e uso do ambiente
No momento, o Qwen-TTS é servido por meio da API do Qwen, que não requer um modelo instalado localmente, mas exige que uma chave de API seja configurada para invocar o serviço. Abaixo estão as etapas detalhadas para usá-lo:
- Obtendo a chave da API
Os usuários precisam primeiro se registrar em uma conta Aliyun e ativar o serviço Qwen API. Faça login na AliCloud Hundred Refinement Platform e soliciteDASHSCOPE_API_KEY
.- Visite o site oficial da Aliyun Hundred Refine Platform e clique em "Registrar" ou "Login".
- Localize o serviço de API do Qwen no console e siga as instruções para ativá-lo e obter a chave de API.
- Salve a chave em uma variável de ambiente com o comando:
export DASHSCOPE_API_KEY='your_api_key'
- Instale o ambiente Python necessário
O Qwen-TTS requer chamadas de API via Python, sendo recomendado o Python 3.6 ou superior. Instale as bibliotecas de dependência necessárias:pip install dashscope pip install requests
Certifique-se de que a conexão de rede esteja estável para evitar tempos limite de chamadas à API.
- Chamando a API do Qwen-TTS para gerar fala
O Qwen-TTS fornece uma interface Python simples para a conversão de texto em fala. Abaixo está um código de amostra básico:import os import requests import dashscope def get_api_key(): api_key = os.getenv("DASHSCOPE_API_KEY") if not api_key: raise EnvironmentError("DASHSCOPE_API_KEY environment variable not set.") return api_key def synthesize_speech(text, voice="Dylan", model="qwen-tts-latest"): api_key = get_api_key() try: response = dashscope.audio.qwen_tts.SpeechSynthesizer.call( model=model, api_key=api_key, text=text, voice=voice ) if response is None: raise RuntimeError("API call returned None response") if response.output is None: raise RuntimeError("API call failed: response.output is None") if not hasattr(response.output, 'audio') or response.output.audio is None: raise RuntimeError("API call failed: response.output.audio is None or missing") audio_url = response.output.audio["url"] return audio_url except Exception as e: raise RuntimeError(f"Speech synthesis failed: {e}") def download_audio(audio_url, save_path): try: resp = requests.get(audio_url, timeout=10) resp.raise_for_status() with open(save_path, 'wb') as f: f.write(resp.content) print(f"Audio file saved to: {save_path}") except Exception as e: raise RuntimeError(f"Download failed: {e}") def main(): text = "哟,您猜怎么着?今儿个我看NBA,库里投篮跟闹着玩似的,张手就来,篮筐都得喊他“亲爹”了" save_path = "downloaded_audio.wav" try: audio_url = synthesize_speech(text, voice="Dylan") download_audio(audio_url, save_path) except Exception as e: print(e) if __name__ == "__main__": main()
- Código Descrição::
text
Texto: Insira o texto a ser convertido, compatível com chinês e inglês mistos.voice
Voz: Selecione o tipo de voz, por exemplo, "Dylan" para o estilo Beijing. Outras vozes disponíveis incluem Cherry, Ethan, Chelsie, Serena, Jada, Sunny.model
Especifique o modelo comoqwen-tts-latest
talvezqwen-tts-2025-05-22
.save_path
Defina o caminho para salvar o arquivo de áudio gerado no formato WAV.
- Código Descrição::
- Seleção de vozes e dialetos
O Qwen-TTS oferece sete vozes, cada uma correspondendo a um estilo e dialeto diferentes:- Cherry, Ethan, Chelsie, Serena: bilíngue em mandarim e inglês para cenários genéricos.
- Dylan: dialeto de Pequim com sotaque autêntico de Pequim para conteúdo localizado.
- Jada: Xangainês, adequado para usuários em áreas onde se fala Wu.
- Ensolarado: Sichuanês, caracterizado por um sotaque do sudoeste.
Quando a API é chamada, ela é passada pelovoice
especifica o som desejado. Por exemplo, um parâmetro definido comovoice="Jada"
Gerar voz em xangainês.
- Ajuste dos efeitos de voz
O Qwen-TTS ajusta automaticamente a entonação, a velocidade da fala e a emoção com base no texto de entrada, eliminando a necessidade de configurar manualmente os parâmetros. Por exemplo, digitar uma frase com um ponto de exclamação gera uma voz mais dinâmica. Os usuários podem controlar a emoção da voz ajustando o conteúdo do texto, como adicionar entonação ou pontuação. - Salvar e usar o áudio gerado
Os arquivos de áudio retornados pela API são fornecidos como URLs. Os usuários podem acessar os arquivos de áudio por meio dodownload_audio
As funções são baixadas como arquivos WAV e salvas localmente para reprodução, edição ou incorporação em outros aplicativos. Certifique-se de que o caminho de download tenha permissões de gravação. - Tratamento de erros
- Se a chave de API não for definida, o programa lançará a mensagem
EnvironmentError
. Verifique a configuração da variável de ambiente. - Se a conexão de rede estiver instável, isso pode causar
requests.get
Tempo limite. Recomenda-se verificar a rede ou estender o tempo limite (timeout
(Parâmetros). - Se o URL de áudio retornado for inválido, certifique-se de inserir o texto e os parâmetros de som corretos.
- Se a chave de API não for definida, o programa lançará a mensagem
Precauções de uso
- Certifique-se de que o texto seja claro e evite frases muito complexas para otimizar a fonética.
- As chamadas de API exigem um ambiente de rede estável e recomenda-se que sejam executadas em um servidor ou dispositivo de alto desempenho.
- Atualmente, o Qwen-TTS está disponível apenas por meio da API e não oferece suporte ao uso off-line no momento.
- As versões futuras poderão oferecer suporte a mais idiomas e estilos de som, portanto, recomendamos acompanhar o blog oficial para obter atualizações.
cenário do aplicativo
- Desenvolvimento do assistente de voz
O Qwen-TTS pode ser usado para desenvolver assistentes de voz inteligentes que suportem os idiomas chinês e inglês e dialetos para cenários localizados. Por exemplo, desenvolver um assistente de voz no dialeto de Pequim para oferecer uma experiência de serviço amigável aos usuários locais. - Produção de audiolivros e podcasts
Use o Qwen-TTS para converter romances ou artigos em audiolivros, com uma variedade de opções de voz para atender às preferências de diferentes ouvintes. As versões em xangainês ou sichuanês estão disponíveis para agradar a regiões específicas. - Geração de conteúdo educacional
O Qwen-TTS pode ser usado em plataformas de educação on-line para criar áudio de ensino bilíngue e adequado para o aprendizado de idiomas ou programas interculturais. - Locuções para anúncios e promoções
As empresas podem usar o Qwen-TTS para gerar fala natural para seus vídeos publicitários, escolhendo uma versão de dialeto para aprimorar as características locais e melhorar a facilidade de uso. - Vozes de jogos e personagens virtuais
Os desenvolvedores de jogos podem dar voz a seus personagens, combinando dialeto e expressão emocional para criar avatares mais realistas.
QA
- Quais idiomas e dialetos são compatíveis com o Qwen-TTS?
Compatível com mandarim, inglês e três dialetos chineses: Pequim, Xangai e Sichuan. Mais idiomas poderão ser suportados no futuro. - Como faço para escolher sons diferentes?
Em uma chamada de API por meio dovoice
especifica o nome do som, comovoice="Dylan"
(dialeto de Pequim) ouvoice="Sunny"
(falando sichuanês) - Preciso instalar o modelo localmente?
Não é necessário, o Qwen-TTS é executado na nuvem por meio da API do Qwen, basta configurar a chave da API. - O áudio gerado pode ser salvo?
Sim, a API retorna o URL do áudio, que pode ser baixado como um arquivo WAV pelo usuário por meio do código e salvo localmente. - Como posso otimizar a naturalidade da minha voz?
Digite um texto claro, devidamente pontuado e flexionado, e o Qwen-TTS ajustará automaticamente a entonação e a emoção para produzir uma voz mais natural.