Conversão de texto em fala com IA

 Enviar site

AIVocal: uma ferramenta de IA gratuita para gerar podcasts e processar áudio
O AIVocal é uma plataforma de processamento de áudio de IA gratuita que oferece conversão de texto em fala (TTS), conversão de fala em texto (STT), separação de voz humana e geração de podcast. Os usuários podem usá-la sem registro, e ela suporta 24 idiomas e mais de 900 tons naturais, o que é adequado para a produção de podcasts, audiolivros, dublagem de vídeo e assim por diante....
06-27 1330Recomendado
SuperMaker
O SuperMaker AI é uma plataforma de criação on-line gratuita que ajuda os usuários a gerar rapidamente conteúdo de vídeo, música, imagem e voz de alta qualidade. Os usuários podem experimentar os principais recursos sem fazer login, e é fácil de usar, o que a torna adequada para criadores individuais e pequenas equipes. A plataforma usa tecnologia de inteligência artificial para criar textos, imagens ou...
06-11 2630Recomendado
Muyan-TTS: treinamento e síntese de fala em podcasts personalizados
O Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e oferece suporte à síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B e, combinado com o decodificador SoVITS, fornece...
05-06 9140Recomendado
Kimi-Audio: processamento de áudio de código aberto e modelo de base de diálogo
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoção de fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com...
05-05 5770Recomendado
Audibit: transformando artigos populares de tecnologia em podcasts de áudio prontos para serem ouvidos
O Audibit é um projeto de código aberto, cuja função principal é transformar automaticamente o Hacker News, o TechCrunch e outros artigos populares sobre tecnologia em podcasts de áudio, para que os usuários possam ouvir informações pela Web ou por dispositivos móveis durante o trajeto para o trabalho, o exercício físico ou quando estiverem ocupados. O projeto usa Next.js e React para desenvolver o front-end, combinado com ...
05-05 5250Recomendado
Dia: um modelo de conversão de texto em fala para gerar diálogos hiper-realistas para vários jogadores
O Dia é um modelo de conversão de texto em fala (TTS) de código aberto desenvolvido pela Nari Labs que se concentra na geração de áudio de diálogo hiper-realista. Ele transforma scripts de texto em diálogos realistas com vários caracteres em um único processo, oferece suporte ao controle de emoções e entonação e até mesmo gera expressões não verbais, como risadas.
04-22 6370Recomendado
Orpheus-TTS: uma ferramenta de conversão de texto em fala para gerar fala natural em chinês
O Orpheus-TTS é um sistema de conversão de texto em fala (TTS) de código aberto desenvolvido na arquitetura Llama-3b com o objetivo de gerar áudio próximo à fala humana natural. Ele foi lançado pela equipe da Canopy AI e é compatível com vários idiomas, como inglês, espanhol, francês, alemão, italiano, português e chinês...
04-12 6810Recomendado
MCP da ElevenLabs: serviço de MCP de geração de fala
O MCP da ElevenLabs é um projeto oficial de código aberto da ElevenLabs hospedado no GitHub. É uma ferramenta de servidor baseada no Protocolo de Controle de Modelo (Protocolo de Contexto de Modelo, MCP), projetada para conectar modelos de IA e o ElevenLab...
04-10 6130Recomendado
Vapi: ajudando os desenvolvedores a criar rapidamente assistentes de voz de baixa latência
O Vapi é uma plataforma de IA de voz para desenvolvedores. Ela permite que os usuários criem, testem e implementem assistentes de IA de voz em minutos, resolvendo o problema tradicional do desenvolvimento demorado de aplicativos de voz e da dificuldade de escalonamento. A Vapi fornece ferramentas e infraestrutura completas para dar suporte a conversas em tempo real, integração de telefonia e implementação multiplataforma....
04-08 6720Recomendado
Conch Speech (MiniMax Audio): ferramenta de IA para gerar discurso natural
O MiniMax Audio é uma ferramenta de geração de fala de IA da MiniMax, com o recurso principal de converter rapidamente texto em fala natural altamente semelhante. Ela se baseia no modelo Speech-02, com uma similaridade de síntese de fala de até 99%, qualidade de som de nível de estúdio e suporte para mais de 30 idiomas e uma ampla variedade de...
04-08 9761Recomendado
Text2Voice: uma interface gráfica de conversão de texto em fala baseada em APIs de fluxo baseadas em silício
O Text2Voice é uma ferramenta de código aberto que fornece funcionalidade de conversão de texto em fala com base em uma API de mobilidade baseada em silício, com uma interface gráfica do usuário (GUI) limpa como seu melhor recurso. Ele foi criado pelo desenvolvedor Sheldon Lee no GitHub para permitir que os usuários transformem facilmente texto em fala por meio de uma interface. O projeto usa o Py...
04-06 6910Recomendado
Projeto operacional de código aberto que integra vários serviços avançados de síntese de fala
O Open-VoiceCanvas é uma plataforma de síntese de fala de código aberto desenvolvida pela equipe da ItusiAI. Ela é compatível com mais de 50 idiomas, pode converter texto em fala natural e clonar vozes personalizadas por meio do upload de áudio. O projeto integra o OpenAI TTS, o AWS Polly e o MiniM...
04-02 7220Recomendado
Paper to Podcast: conversão de artigos acadêmicos em podcasts de conversas com várias pessoas
O Paper to Podcast é uma ferramenta de código aberto especializada em transformar trabalhos de pesquisa acadêmica em podcasts animados e divertidos. Ela facilita a compreensão de conteúdos acadêmicos complexos usando tecnologia de inteligência artificial para transformar um artigo em formato PDF em um diálogo entre três personagens: o apresentador, o aluno e o especialista. Esse projeto foi desenvolvido por...
03-31 6900Recomendado
MegaTTS3: um modelo leve para sintetizar a fala em chinês e inglês
O MegaTTS3 é uma ferramenta de síntese de fala de código aberto desenvolvida pela ByteDance em colaboração com a Universidade de Zhejiang, com foco na geração de fala em chinês e inglês de alta qualidade. Seu modelo principal tem apenas 0,45B de parâmetros, é leve e eficiente, suporta a geração de fala mista em chinês e inglês e a clonagem de fala. O projeto está hospedado no GitHub, fornecendo código e...
03-29 8840Recomendado
Podcastle: a ferramenta de IA para criar rapidamente podcasts de alta qualidade
O Podcastle é uma plataforma on-line baseada em IA, especializada em ajudar os usuários a criar e editar rapidamente podcasts de alta qualidade. Ela integra recursos de gravação, edição e publicação, e os usuários podem fazer tudo isso por meio de um navegador, sem a necessidade de equipamentos especializados ou softwares complexos. A plataforma utiliza tecnologia de IA para fornecer redução de ruído...
03-29 7820Recomendado
IndexTTS: ferramenta de conversão de texto em fala com suporte a mixagem de chinês e inglês
O IndexTTS é uma ferramenta de conversão de texto em fala (TTS) de código aberto hospedada no GitHub e desenvolvida pela equipe do index-tts. Ela se baseia nas tecnologias XTTS e Tortoise e oferece síntese de fala eficiente e de alta qualidade por meio de um design de módulo aprimorado.
03-27 8480Recomendado
csm-mlx: modelo de geração de fala csm para dispositivos Apple
O csm-mlx é baseado na estrutura MLX desenvolvida pela Apple, otimizada para o modelo de diálogo de fala CSM (Conversation Speech Model) especificamente para o Apple Silicon. Esse projeto permite que os usuários executem uma geração de fala eficiente em dispositivos Apple de forma simples e...
03-18 7000Recomendado
Autiobooks: converter ebooks epub em audiolivros m4b
O Autiobooks é uma ferramenta de código aberto criada para ajudar os usuários a converter rapidamente livros eletrônicos no formato .epub em audiolivros no formato .m4b. Ela usa tecnologia de síntese de fala de alta qualidade fornecida pela Kokoro para produzir áudio natural e suave. A ferramenta foi desenvolvida por David Nesbitt e segue o padrão MIT ...
03-12 6510Recomendado
PlayHT: uma ferramenta de IA para gerar fala hiper-realista
A PlayHT é uma plataforma on-line eficiente que se concentra na geração de fala com IA para ajudar os usuários a converter rapidamente o texto em uma fala natural e realista. Ela oferece mais de 600 vozes de IA, suporta mais de 60 idiomas e diversos sotaques e é adequada para uma variedade de cenários, como produção de podcast, conteúdo educacional, marketing e promoção. Os usuários só precisam inserir...
03-04 8780Recomendado