AI Speech to Text

 Enviar site

Simple Subtitling: uma ferramenta de código aberto para gerar automaticamente legendas de vídeo e identificação de locutor
O Simple Subtitling é uma ferramenta de código aberto de geração de legendas de áudio que se concentra na geração automática de legendas e na identificação de alto-falantes para arquivos de vídeo ou áudio. O projeto desenvolvido por Jaesung Huh, hospedado no GitHub, tem como objetivo fornecer uma solução simples e eficiente de geração de legendas. Ferramentas por meio da tecnologia de processamento de áudio .....
05-16 6160Recomendado
Abogen: uma ferramenta para converter vários formatos de texto em audiolivros
O Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou auxílios de aprendizagem. Os usuários podem escolher...
05-05 5390Recomendado
Kimi-Audio: processamento de áudio de código aberto e modelo de base de diálogo
O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI que se concentra na compreensão, geração e diálogo de áudio. Ele oferece suporte a uma ampla gama de tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoção de fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio, combinados com...
05-05 5920Recomendado
On Device AI: ferramenta de transcrição de voz e bate-papo com IA para execução nativa do iPhone
O On-Device AI é um aplicativo de IA que funciona totalmente off-line e foi projetado para dispositivos Apple, compatível com iOS, macOS e visionOS. Ele fornece execução de modelo de linguagem local em grande escala (LLM), transcrição de fala em tempo real, análise de documentos etc. e pode ser usado sem conexão com a Internet para garantir a privacidade dos dados. Os usuários podem...
05-04 7560Recomendado
Vexa: uma ferramenta inteligente de extração de conhecimento e transcrição de reuniões em tempo real
A Vexa é uma plataforma de código aberto de transcrição de reuniões em tempo real e gerenciamento de conhecimento projetada para fornecer serviços eficientes de gravação de reuniões e extração inteligente de conhecimento para empresas e indivíduos. Ele se une automaticamente ao Google Meet, ao Zoom e a outras plataformas por meio de robôs de reunião orientados por API, transcreve voz para texto em tempo real e oferece suporte a 99 tipos de...
04-22 6240Recomendado
Ferramenta de código aberto para conversão de fala em texto em tempo real
O realtime-transcription-fastrtc é um projeto de código aberto que se concentra na conversão de fala em texto em tempo real. Ele usa a tecnologia FastRTC para processar fluxos de áudio de baixa latência, combinada com modelos nativos do Whisper para um reconhecimento de fala eficiente. O projeto é mantido pelo desenvolvedor sofi444 , tor...
04-13 6810Recomendado
Transcritor
O Transkriptor é uma ferramenta de transcrição orientada por IA que se concentra na conversão rápida de áudio e vídeo em texto. Ela suporta mais de 100 idiomas com uma taxa de precisão de até 99% e é adequada para uma ampla variedade de cenários, como reuniões, entrevistas, anotações em sala de aula e muito mais. Os usuários podem fazer upload de arquivos, gravar diretamente ou transcrever por meio de links para o Zoom, Go...
04-12 9700Recomendado
Lontra.ai
O Otter.ai é uma ferramenta de transcrição de voz e gerenciamento de reuniões com tecnologia de IA, com funcionalidade central para converter voz em texto em tempo real e gerar automaticamente notas de reunião, resumos e itens de ação. Ele é alimentado de forma inteligente por um agente de reunião de IA que se junta automaticamente a reuniões como Zoom, Google Meet, etc., capturando...
04-12 8270Recomendado
TurboScribe: a ferramenta on-line para conversão rápida de áudio e vídeo em texto
O TurboScribe é uma ferramenta de transcrição baseada em IA que se concentra na conversão rápida de áudio e vídeo em texto. Ele suporta mais de 98 idiomas com uma taxa de precisão de 99,8% para usuários que precisam processar conteúdo de voz com eficiência. Os usuários podem fazer upload de arquivos para gerar transcrições ou legendas, o que é fácil e rápido...
04-12 5810Recomendado
Aqua Voice: entrada de voz entre aplicativos para gerar texto preciso
O Aqua Voice é uma ferramenta inteligente de geração de texto baseada em fala, focada na conversão rápida da fala do usuário em texto formatado. Foi fundada em 2023 por Finnian Brown e Jack McIntire, está sediada em São Francisco, EUA, e faz parte do Y Combinator W24 ...
04-10 6170Recomendado
Dolphin: reconhecimento de idiomas asiáticos e modelagem de fala para texto para idiomas asiáticos
O Dolphin é um modelo de código aberto desenvolvido pela DataoceanAI em colaboração com a Universidade de Tsinghua, com foco no reconhecimento de fala e de idiomas para idiomas asiáticos. Ele é compatível com 40 idiomas do Leste Asiático, Sul da Ásia, Sudeste Asiático e Oriente Médio, além de 22 dialetos chineses. O modelo é baseado em mais de 210.000 horas de dados de áudio treinados...
04-08 7450Recomendado
TwinMind
O TwinMind é uma ferramenta inteligente desenvolvida pela ThirdEar AI, Inc. que "lembra de tudo para você". Ele pode gravar e converter conversas, reuniões ou palestras em texto em tempo real, em mais de 100 idiomas, e pode ser usado off-line mesmo quando o telefone está no bolso. Os usuários não precisam fazer anotações por conta própria, o TwinMind...
04-05 8710Recomendado
Wispr Flow: use sua voz para digitar texto rapidamente em qualquer aplicativo
O Wispr Flow é uma ferramenta de entrada de texto habilitada para voz que ajuda os usuários a escrever rapidamente em seus computadores. Com uma experiência "3x mais rápida do que digitar", os usuários podem inserir texto em qualquer aplicativo, como Word, Slack ou Gmail, apenas falando naturalmente.O Wispr Flow suporta mais de 100 idiomas...
03-14 8220Recomendado
Local-NotebookLM: PDF local para gerar podcasts de voz de ferramentas de código aberto
O Local-NotebookLM é um projeto de código aberto que visa a fornecer ferramentas inteligentes de processamento de documentos e geração de conteúdo executadas localmente. Ele é inspirado no Google NotebookLM, com foco em ajudar os usuários a transformar PDFs e outros documentos em vários formatos de saída, como podcasts, entrevistas ou palestras, etc., enquanto oferece suporte à implantação local ....
03-10 7590Recomendado
AssemblyAI: Plataforma de análise de inteligência de áudio e fala para texto de alta precisão
A AssemblyAI é uma plataforma focada na tecnologia de IA de fala, fornecendo aos desenvolvedores e às empresas ferramentas eficientes de análise de fala para texto e áudio. Seu principal destaque é a família de modelos Universal, especialmente o recém-lançado Universal-2, que é a mais avançada tecnologia de fala para texto da AssemblyAI...
03-06 7900Recomendado
FireRedASR: um modelo de código aberto para reconhecimento de fala multilíngue de alta precisão
O FireRedASR é um modelo de reconhecimento de fala desenvolvido e de código aberto pela equipe do Little Red Book FireRed, com foco no fornecimento de soluções de reconhecimento automático de fala (ASR) de alta precisão e com suporte a vários idiomas. O projeto está hospedado no GitHub para desenvolvedores e pesquisadores, oferece design de nível industrial e suporta mandarim, dialetos chineses,...
03-04 7810Recomendado
WhisperChain: conversão de voz em texto em tempo real e otimização de palavras faladas
O WhisperChain é um projeto de código aberto baseado em IA hospedado no GitHub e liderado pelo desenvolvedor Chris Choy. Ele é usado principalmente para converter a fala em texto e otimizar automaticamente a expressão por meio da tecnologia de IA, removendo palavras coloquiais redundantes (como "ah", "hmm" e outras palavras de preenchimento) para melhorar o texto ....
03-02 7700Recomendado
LLPlayer
O LLPlayer é um reprodutor de mídia de código aberto projetado para alunos de idiomas, hospedado no GitHub e criado pelo desenvolvedor umlx5h. Ele integra uma variedade de recursos úteis, como exibição de legendas bilíngues, legendas geradas automaticamente por IA, tradução em tempo real e pesquisa de palavras etc. Seu objetivo é ajudar os usuários a aprimorar o idioma assistindo a vídeos...
02-27 1.1 K0Recomendado
CapsWriter-Offline: ferramenta de entrada de fala e transcrição de legendas para PC
O CapsWriter-Offline é uma ferramenta de transcrição de legendas e entrada de voz para PC, hospedada no GitHub e criada pelo desenvolvedor HaujetZhao. Ele é executado totalmente off-line e não requer conexão com a Internet para converter fala em texto e arquivos de áudio/vídeo em legendas, suportando tempo de gravação ilimitado, chinês e inglês .....
02-24 9070Recomendado