Acesso no exterior: www.kdjingpai.com
Ctrl + D Marcar este site como favorito

O Qwen-TTS é uma ferramenta de conversão de texto em fala (TTS) desenvolvida pela equipe Qwen da Alibaba Cloud e fornecida por meio da API Qwen. O Qwen-TTS é compatível com mandarim, inglês e três dialetos chineses - Pequim, Xangai e Sichuanês - e oferece sete vozes bilíngues, incluindo Cherry, Ethan, Chelsie, Serena, Dylan (Pequim), Jada (Xangai) e Sunny (Sichuan). Jada (Shanghainese) e Sunny (Sichuanese). Essa ferramenta é adequada para cenários que exigem síntese de fala de alta qualidade, como assistentes de voz e geração de conteúdo de áudio. No futuro, o Qwen-TTS planeja oferecer suporte a mais idiomas e opções de estilo.

Qwen-TTS:支持中文方言和双语的语音合成工具-1

 

Lista de funções

  • Oferece suporte à síntese de fala bilíngue em mandarim e chinês/inglês para produzir uma fala natural e suave.
  • Oferece suporte a três dialetos chineses - Pequim, Xangai e Sichuanês - para preservar as características de sotaque locais.
  • Oferece sete vozes bilíngues para atender às necessidades personalizadas de diferentes cenários.
  • Ajusta automaticamente o tom, a velocidade e a emoção da voz para se aproximar da expressão de uma pessoa real.
  • Os serviços são fornecidos por meio da API do Qwen para facilitar a integração dos desenvolvedores aos aplicativos.
  • Oferece suporte ao treinamento de conjuntos de dados de fala em larga escala para garantir a alta qualidade e o realismo da saída de fala.
  • Fornece a função de download de arquivos de áudio, o que é conveniente para os usuários salvarem a voz gerada.

 

Usando a Ajuda

Preparação para instalação e uso do ambiente

No momento, o Qwen-TTS é servido por meio da API do Qwen, que não requer um modelo instalado localmente, mas exige que uma chave de API seja configurada para invocar o serviço. Abaixo estão as etapas detalhadas para usá-lo:

  1. Obtendo a chave da API
    Os usuários precisam primeiro se registrar em uma conta Aliyun e ativar o serviço Qwen API. Faça login na AliCloud Hundred Refinement Platform e solicite DASHSCOPE_API_KEY.

    • Visite o site oficial da Aliyun Hundred Refine Platform e clique em "Registrar" ou "Login".
    • Localize o serviço de API do Qwen no console e siga as instruções para ativá-lo e obter a chave de API.
    • Salve a chave em uma variável de ambiente com o comando:
      export DASHSCOPE_API_KEY='your_api_key'
      
  2. Instale o ambiente Python necessário
    O Qwen-TTS requer chamadas de API via Python, sendo recomendado o Python 3.6 ou superior. Instale as bibliotecas de dependência necessárias:

    pip install dashscope
    pip install requests
    

    Certifique-se de que a conexão de rede esteja estável para evitar tempos limite de chamadas à API.

  3. Chamando a API do Qwen-TTS para gerar fala
    O Qwen-TTS fornece uma interface Python simples para a conversão de texto em fala. Abaixo está um código de amostra básico:

    import os
    import requests
    import dashscope
    def get_api_key():
    api_key = os.getenv("DASHSCOPE_API_KEY")
    if not api_key:
    raise EnvironmentError("DASHSCOPE_API_KEY environment variable not set.")
    return api_key
    def synthesize_speech(text, voice="Dylan", model="qwen-tts-latest"):
    api_key = get_api_key()
    try:
    response = dashscope.audio.qwen_tts.SpeechSynthesizer.call(
    model=model,
    api_key=api_key,
    text=text,
    voice=voice
    )
    if response is None:
    raise RuntimeError("API call returned None response")
    if response.output is None:
    raise RuntimeError("API call failed: response.output is None")
    if not hasattr(response.output, 'audio') or response.output.audio is None:
    raise RuntimeError("API call failed: response.output.audio is None or missing")
    audio_url = response.output.audio["url"]
    return audio_url
    except Exception as e:
    raise RuntimeError(f"Speech synthesis failed: {e}")
    def download_audio(audio_url, save_path):
    try:
    resp = requests.get(audio_url, timeout=10)
    resp.raise_for_status()
    with open(save_path, 'wb') as f:
    f.write(resp.content)
    print(f"Audio file saved to: {save_path}")
    except Exception as e:
    raise RuntimeError(f"Download failed: {e}")
    def main():
    text = "哟,您猜怎么着?今儿个我看NBA,库里投篮跟闹着玩似的,张手就来,篮筐都得喊他“亲爹”了"
    save_path = "downloaded_audio.wav"
    try:
    audio_url = synthesize_speech(text, voice="Dylan")
    download_audio(audio_url, save_path)
    except Exception as e:
    print(e)
    if __name__ == "__main__":
    main()
    
    • Código Descrição::
      • textTexto: Insira o texto a ser convertido, compatível com chinês e inglês mistos.
      • voiceVoz: Selecione o tipo de voz, por exemplo, "Dylan" para o estilo Beijing. Outras vozes disponíveis incluem Cherry, Ethan, Chelsie, Serena, Jada, Sunny.
      • modelEspecifique o modelo como qwen-tts-latest talvez qwen-tts-2025-05-22.
      • save_pathDefina o caminho para salvar o arquivo de áudio gerado no formato WAV.
  4. Seleção de vozes e dialetos
    O Qwen-TTS oferece sete vozes, cada uma correspondendo a um estilo e dialeto diferentes:

    • Cherry, Ethan, Chelsie, Serena: bilíngue em mandarim e inglês para cenários genéricos.
    • Dylan: dialeto de Pequim com sotaque autêntico de Pequim para conteúdo localizado.
    • Jada: Xangainês, adequado para usuários em áreas onde se fala Wu.
    • Ensolarado: Sichuanês, caracterizado por um sotaque do sudoeste.
      Quando a API é chamada, ela é passada pelo voice especifica o som desejado. Por exemplo, um parâmetro definido como voice="Jada" Gerar voz em xangainês.
  5. Ajuste dos efeitos de voz
    O Qwen-TTS ajusta automaticamente a entonação, a velocidade da fala e a emoção com base no texto de entrada, eliminando a necessidade de configurar manualmente os parâmetros. Por exemplo, digitar uma frase com um ponto de exclamação gera uma voz mais dinâmica. Os usuários podem controlar a emoção da voz ajustando o conteúdo do texto, como adicionar entonação ou pontuação.
  6. Salvar e usar o áudio gerado
    Os arquivos de áudio retornados pela API são fornecidos como URLs. Os usuários podem acessar os arquivos de áudio por meio do download_audio As funções são baixadas como arquivos WAV e salvas localmente para reprodução, edição ou incorporação em outros aplicativos. Certifique-se de que o caminho de download tenha permissões de gravação.
  7. Tratamento de erros
    • Se a chave de API não for definida, o programa lançará a mensagem EnvironmentError. Verifique a configuração da variável de ambiente.
    • Se a conexão de rede estiver instável, isso pode causar requests.get Tempo limite. Recomenda-se verificar a rede ou estender o tempo limite (timeout (Parâmetros).
    • Se o URL de áudio retornado for inválido, certifique-se de inserir o texto e os parâmetros de som corretos.

Precauções de uso

  • Certifique-se de que o texto seja claro e evite frases muito complexas para otimizar a fonética.
  • As chamadas de API exigem um ambiente de rede estável e recomenda-se que sejam executadas em um servidor ou dispositivo de alto desempenho.
  • Atualmente, o Qwen-TTS está disponível apenas por meio da API e não oferece suporte ao uso off-line no momento.
  • As versões futuras poderão oferecer suporte a mais idiomas e estilos de som, portanto, recomendamos acompanhar o blog oficial para obter atualizações.

 

cenário do aplicativo

  1. Desenvolvimento do assistente de voz
    O Qwen-TTS pode ser usado para desenvolver assistentes de voz inteligentes que suportem os idiomas chinês e inglês e dialetos para cenários localizados. Por exemplo, desenvolver um assistente de voz no dialeto de Pequim para oferecer uma experiência de serviço amigável aos usuários locais.
  2. Produção de audiolivros e podcasts
    Use o Qwen-TTS para converter romances ou artigos em audiolivros, com uma variedade de opções de voz para atender às preferências de diferentes ouvintes. As versões em xangainês ou sichuanês estão disponíveis para agradar a regiões específicas.
  3. Geração de conteúdo educacional
    O Qwen-TTS pode ser usado em plataformas de educação on-line para criar áudio de ensino bilíngue e adequado para o aprendizado de idiomas ou programas interculturais.
  4. Locuções para anúncios e promoções
    As empresas podem usar o Qwen-TTS para gerar fala natural para seus vídeos publicitários, escolhendo uma versão de dialeto para aprimorar as características locais e melhorar a facilidade de uso.
  5. Vozes de jogos e personagens virtuais
    Os desenvolvedores de jogos podem dar voz a seus personagens, combinando dialeto e expressão emocional para criar avatares mais realistas.

 

QA

  1. Quais idiomas e dialetos são compatíveis com o Qwen-TTS?
    Compatível com mandarim, inglês e três dialetos chineses: Pequim, Xangai e Sichuan. Mais idiomas poderão ser suportados no futuro.
  2. Como faço para escolher sons diferentes?
    Em uma chamada de API por meio do voice especifica o nome do som, como voice="Dylan"(dialeto de Pequim) ou voice="Sunny"(falando sichuanês)
  3. Preciso instalar o modelo localmente?
    Não é necessário, o Qwen-TTS é executado na nuvem por meio da API do Qwen, basta configurar a chave da API.
  4. O áudio gerado pode ser salvo?
    Sim, a API retorna o URL do áudio, que pode ser baixado como um arquivo WAV pelo usuário por meio do código e salvo localmente.
  5. Como posso otimizar a naturalidade da minha voz?
    Digite um texto claro, devidamente pontuado e flexionado, e o Qwen-TTS ajustará automaticamente a entonação e a emoção para produzir uma voz mais natural.
0Marcado
0Recomendado

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

caixa de entrada

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil