O AIVocal é uma plataforma de processamento de áudio de IA gratuita que oferece conversão de texto em fala (TTS), conversão de fala em texto (STT), separação de voz humana e geração de podcast. Os usuários podem usá-la sem registro, e ela suporta 24 idiomas e mais de 900 tons naturais, o que é adequado para a produção de podcasts, audiolivros, dublagem de vídeo e assim por diante....
O SuperMaker AI é uma plataforma de criação on-line gratuita que ajuda os usuários a gerar rapidamente conteúdo de vídeo, música, imagem e voz de alta qualidade. Os usuários podem experimentar os principais recursos sem fazer login, e é fácil de usar, o que a torna adequada para criadores individuais e pequenas equipes. A plataforma usa tecnologia de inteligência artificial para criar textos, imagens ou...
O Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e oferece suporte à síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B e, combinado com o decodificador SoVITS, fornece...
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoção de fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com...
O Audibit é um projeto de código aberto, cuja função principal é transformar automaticamente o Hacker News, o TechCrunch e outros artigos populares sobre tecnologia em podcasts de áudio, para que os usuários possam ouvir informações pela Web ou por dispositivos móveis durante o trajeto para o trabalho, o exercício físico ou quando estiverem ocupados. O projeto usa Next.js e React para desenvolver o front-end, combinado com ...
O Dia é um modelo de conversão de texto em fala (TTS) de código aberto desenvolvido pela Nari Labs que se concentra na geração de áudio de diálogo hiper-realista. Ele transforma scripts de texto em diálogos realistas com vários caracteres em um único processo, oferece suporte ao controle de emoções e entonação e até mesmo gera expressões não verbais, como risadas.
O Orpheus-TTS é um sistema de conversão de texto em fala (TTS) de código aberto desenvolvido na arquitetura Llama-3b com o objetivo de gerar áudio próximo à fala humana natural. Ele foi lançado pela equipe da Canopy AI e é compatível com vários idiomas, como inglês, espanhol, francês, alemão, italiano, português e chinês...
O MCP da ElevenLabs é um projeto oficial de código aberto da ElevenLabs hospedado no GitHub. É uma ferramenta de servidor baseada no Protocolo de Controle de Modelo (Protocolo de Contexto de Modelo, MCP), projetada para conectar modelos de IA e o ElevenLab...
O Vapi é uma plataforma de IA de voz para desenvolvedores. Ela permite que os usuários criem, testem e implementem assistentes de IA de voz em minutos, resolvendo o problema tradicional do desenvolvimento demorado de aplicativos de voz e da dificuldade de escalonamento. A Vapi fornece ferramentas e infraestrutura completas para dar suporte a conversas em tempo real, integração de telefonia e implementação multiplataforma....
O MiniMax Audio é uma ferramenta de geração de fala de IA da MiniMax, com o recurso principal de converter rapidamente texto em fala natural altamente semelhante. Ela se baseia no modelo Speech-02, com uma similaridade de síntese de fala de até 99%, qualidade de som de nível de estúdio e suporte para mais de 30 idiomas e uma ampla variedade de...
O Text2Voice é uma ferramenta de código aberto que fornece funcionalidade de conversão de texto em fala com base em uma API de mobilidade baseada em silício, com uma interface gráfica do usuário (GUI) limpa como seu melhor recurso. Ele foi criado pelo desenvolvedor Sheldon Lee no GitHub para permitir que os usuários transformem facilmente texto em fala por meio de uma interface. O projeto usa o Py...
O Open-VoiceCanvas é uma plataforma de síntese de fala de código aberto desenvolvida pela equipe da ItusiAI. Ela é compatível com mais de 50 idiomas, pode converter texto em fala natural e clonar vozes personalizadas por meio do upload de áudio. O projeto integra o OpenAI TTS, o AWS Polly e o MiniM...
O Paper to Podcast é uma ferramenta de código aberto especializada em transformar trabalhos de pesquisa acadêmica em podcasts animados e divertidos. Ela facilita a compreensão de conteúdos acadêmicos complexos usando tecnologia de inteligência artificial para transformar um artigo em formato PDF em um diálogo entre três personagens: o apresentador, o aluno e o especialista. Esse projeto foi desenvolvido por...
O MegaTTS3 é uma ferramenta de síntese de fala de código aberto desenvolvida pela ByteDance em colaboração com a Universidade de Zhejiang, com foco na geração de fala em chinês e inglês de alta qualidade. Seu modelo principal tem apenas 0,45B de parâmetros, é leve e eficiente, suporta a geração de fala mista em chinês e inglês e a clonagem de fala. O projeto está hospedado no GitHub, fornecendo código e...
O Podcastle é uma plataforma on-line baseada em IA, especializada em ajudar os usuários a criar e editar rapidamente podcasts de alta qualidade. Ela integra recursos de gravação, edição e publicação, e os usuários podem fazer tudo isso por meio de um navegador, sem a necessidade de equipamentos especializados ou softwares complexos. A plataforma utiliza tecnologia de IA para fornecer redução de ruído...
O IndexTTS é uma ferramenta de conversão de texto em fala (TTS) de código aberto hospedada no GitHub e desenvolvida pela equipe do index-tts. Ela se baseia nas tecnologias XTTS e Tortoise e oferece síntese de fala eficiente e de alta qualidade por meio de um design de módulo aprimorado.
O csm-mlx é baseado na estrutura MLX desenvolvida pela Apple, otimizada para o modelo de diálogo de fala CSM (Conversation Speech Model) especificamente para o Apple Silicon. Esse projeto permite que os usuários executem uma geração de fala eficiente em dispositivos Apple de forma simples e...
O Autiobooks é uma ferramenta de código aberto criada para ajudar os usuários a converter rapidamente livros eletrônicos no formato .epub em audiolivros no formato .m4b. Ela usa tecnologia de síntese de fala de alta qualidade fornecida pela Kokoro para produzir áudio natural e suave. A ferramenta foi desenvolvida por David Nesbitt e segue o padrão MIT ...
A PlayHT é uma plataforma on-line eficiente que se concentra na geração de fala com IA para ajudar os usuários a converter rapidamente o texto em uma fala natural e realista. Ela oferece mais de 600 vozes de IA, suporta mais de 60 idiomas e diversos sotaques e é adequada para uma variedade de cenários, como produção de podcast, conteúdo educacional, marketing e promoção. Os usuários só precisam inserir...