O General Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou auxílios de aprendizagem. Use...
Introdução geral O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI, com foco na compreensão, geração e diálogo de áudio. Ele oferece suporte a várias tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoções na fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio,...
Introdução abrangente O On-Device AI é um aplicativo de IA que funciona totalmente off-line, projetado para dispositivos Apple, compatível com iOS, macOS e visionOS. Ele oferece execução de modelo de linguagem local em grande escala (LLM), transcrição de fala em tempo real, análise de documentos e outros recursos, e pode ser usado sem conexão com a Internet para garantir a privacidade dos dados. Os usuários podem...
Introdução abrangente O Vexa é uma plataforma de código aberto de transcrição de reuniões em tempo real e gerenciamento de conhecimento projetada para fornecer serviços eficientes de gravação de reuniões e extração inteligente de conhecimento para empresas e indivíduos. Ele se une automaticamente ao Google Meet, ao Zoom e a outras plataformas por meio de robôs de reunião orientados por API, transcreve voz para texto em tempo real e...
Introdução geral O realtime-transcription-fastrtc é um projeto de código aberto que se concentra na conversão de fala em texto em tempo real. Ele usa a tecnologia FastRTC para processar fluxos de áudio de baixa latência, combinada com o modelo local Whisper para obter um reconhecimento de fala eficiente. O projeto foi desenvolvido por sofi444 ...
Introdução geral O Transkriptor é uma ferramenta de transcrição orientada por IA que se concentra na conversão rápida de áudio e vídeo em texto. Ele suporta mais de 100 idiomas com uma taxa de precisão de até 99% e é adequado para uma ampla variedade de cenários, como reuniões, entrevistas, anotações em sala de aula e muito mais. Os usuários podem fazer upload de arquivos, gravar diretamente ou transcrever por meio de links...
Descrição geral O Otter.ai é uma ferramenta de transcrição de voz e gerenciamento de reuniões com tecnologia de IA, com funcionalidade central para converter voz em texto em tempo real e gerar automaticamente notas de reunião, resumos e itens de ação. Ele é suportado de forma inteligente por um agente de reunião de IA que se junta automaticamente ao Zoom, ao Google Meet e a outros...
Descrição geral O TurboScribe é uma ferramenta de transcrição baseada em IA que se concentra na conversão rápida de áudio e vídeo em texto. Ele suporta mais de 98 idiomas com uma taxa de precisão de 99,8%, adequado para usuários que precisam processar conteúdo de voz com eficiência. Os usuários podem fazer upload de arquivos para gerar transcrições ou legendas com uma simples...
Introdução geral O Aqua Voice é uma ferramenta inteligente de geração de texto baseada em fala, focada na conversão rápida da fala do usuário em texto formatado. Foi fundada em 2023 por Finnian Brown e Jack McIntire, tem sede em São Francisco, EUA, e faz parte da Y Combinator...
Introdução abrangente O Dolphin é um modelo de código aberto desenvolvido pela DataoceanAI em colaboração com a Universidade de Tsinghua, com foco no reconhecimento de fala e de idioma para idiomas asiáticos. Ele é compatível com 40 idiomas do Leste Asiático, do Sul da Ásia, do Sudeste Asiático e do Oriente Médio, além de 22 dialetos chineses. O modelo é baseado em mais de 210.000 horas de...
O TwinMind é uma ferramenta inteligente desenvolvida pela ThirdEar AI, Inc. que "ajuda você a se lembrar de tudo". Ele pode gravar e converter conversas, reuniões ou palestras em texto em tempo real, em mais de 100 idiomas, e pode ser usado off-line mesmo quando o telefone está no bolso. Os usuários não precisam fazer anotações por conta própria, o TwinM ....
Descrição geral O Wispr Flow é uma ferramenta de entrada de texto ativada por voz que ajuda os usuários a escrever rapidamente em seus computadores. É uma experiência "3x mais rápida do que digitar" que permite aos usuários inserir texto em qualquer aplicativo, como Word, Slack ou Gmail, apenas falando naturalmente.O Wispr Flow é compatível com 10...
Introdução geral O Meeting Minutes (também conhecido como Meetily) é uma ferramenta gratuita e de código aberto de assistente de reuniões com IA, desenvolvida pela Zackriya Solutions, que se concentra na captura de áudio de reuniões em tempo real, na geração de texto transcrito e na extração automática de resumos de reuniões. A ferramenta é executada inteiramente em dispositivos locais e suporta ...
Introdução abrangente O Local-NotebookLM é um projeto de código aberto que visa a fornecer ferramentas inteligentes de processamento de documentos e geração de conteúdo executadas localmente. Ele é inspirado no Google NotebookLM e tem como objetivo ajudar os usuários a transformar PDFs e outros documentos em vários formatos de saída, como podcasts, entrevistas ou palestras, etc., com suporte para ....
Introdução geral A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de fala para texto e áudio. Seu principal destaque é a família de modelos Universal, especialmente o recém-lançado Universal-2, que é o mais avançado da AssemblyAI até o momento...
Introdução abrangente O FireRedASR é um modelo de reconhecimento de fala desenvolvido e de código aberto pela equipe do Little Red Book FireRed, com foco no fornecimento de soluções de reconhecimento automático de fala (ASR) de alta precisão e com suporte a vários idiomas. O projeto está hospedado no GitHub para desenvolvedores e pesquisadores, oferece um design de nível industrial e é compatível com mandarim, chinês...
Introdução geral O WhisperChain é um projeto de código aberto baseado em IA hospedado no GitHub e liderado pelo desenvolvedor Chris Choy. Ele é usado principalmente para converter a fala em texto e otimizar automaticamente a expressão por meio da tecnologia de IA, removendo palavras coloquiais redundantes (como "ah", "hmm" e outras palavras de preenchimento). ....
Introdução geral O LLPlayer é um reprodutor de mídia de código aberto projetado para alunos de idiomas, hospedado no GitHub e criado pelo desenvolvedor umlx5h. Ele integra uma variedade de recursos úteis, como exibição de legendas bilíngues, legendas geradas automaticamente por IA, tradução em tempo real e pesquisa de palavras etc. Ele foi projetado para ajudar os usuários a assistir a vídeos...
Introdução geral O CapsWriter-Offline é uma ferramenta de transcrição de legendas e entrada de voz para PC, hospedada no GitHub e criada pelo desenvolvedor HaujetZhao. Ele é executado totalmente off-line e não requer conexão com a Internet para transcrição de fala para texto e de arquivos de áudio/vídeo para legendas, além de suportar tempo de gravação ilimitado. ....