AI语音转文本

 提交网站

Simple Subtitling：自动生成视频字幕和说话者标识的开源工具
Simple Subtitling 是一个开源的音频字幕生成工具，专注于为视频或音频文件自动生成字幕并标注说话者身份。项目由 Jaesung Huh 开发，托管在 GitHub 上，旨在提供简单高效的字幕生成解决方案。工具通过音频处理技.....
05-16 6160已赞
Abogen：将多种文本格式转换为有声读物的工具
Abogen 是一个开源工具，专为将 ePub、PDF 或纯文本文件快速转换为高质量音频而设计。它使用 Kokoro-82M 模型生成自然流畅的语音，同时支持同步字幕生成，适合制作有声读物、视频配音或学习辅助材料。用户可以选...
05-05 5390已赞
Kimi-Audio：开源音频处理与对话基础模型
Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型，专注于音频理解、生成和对话。它支持多种音频处理任务，例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练，结合创新...
05-05 5920已赞
On Device AI：iPhone本地运行的AI语音转录与聊天工具
On-Device AI 是一款完全离线运行的AI应用，专为苹果设备设计，支持iOS、macOS和visionOS。它提供本地大型语言模型（LLM）运行、实时语音转录、文档分析等功能，无需联网即可使用，确保数据隐私。用户可通过语音...
05-04 7560已赞
Vexa：实时会议转录与智能知识提取工具
Vexa 是一个开源的实时会议转录和知识管理平台，旨在为企业和个人提供高效的会议记录与智能知识提取服务。它通过 API 驱动的会议机器人，自动加入 Google Meet、Zoom 等平台，实时将语音转录为文本，并支持 99 种...
04-22 6240已赞
实时语音转文字的开源工具
realtime-transcription-fastrtc 是一个开源项目，专注于将语音实时转换为文字。它利用 FastRTC 技术处理低延迟音频流，结合本地 Whisper 模型实现高效的语音识别。项目由开发者 sofi444 维护，托...
04-13 6770已赞
Transkriptor
Transkriptor 是一个人工智能驱动的转录工具，专注于将音频和视频快速转为文字。它支持超过100种语言，准确率高达99%，适用于会议、采访、课堂笔记等多种场景。用户可以上传文件、直接录音或通过链接转录Zoom、Go...
04-12 9700已赞
Otter.ai
Otter.ai 是一个人工智能驱动的会议管理与语音转录工具，核心功能是将语音实时转为文字，并自动生成会议笔记、摘要和行动项。它通过 AI Meeting Agent 提供智能支持，能自动加入 Zoom、Google Meet 等会议，捕捉...
04-12 8270已赞
TurboScribe：快速将音频和视频转为文字的在线工具
TurboScribe 是一个基于人工智能的转录工具，专注于将音频和视频快速转为文字。它支持超过98种语言，准确率高达99.8%，适合需要高效处理语音内容的用户。用户可以上传文件，生成文字记录或字幕，操作简单，速度快...
04-12 5810已赞
Aqua Voice：跨应用语音输入生成精准文本
Aqua Voice 是一个基于语音的智能文本生成工具，专注于将用户语音快速转化为格式化文本。它由 Finnian Brown 和 Jack McIntire 创建于2023年，总部位于美国旧金山，隶属于 Y Combinator W24 ...
04-10 6160已赞
Dolphin：面向亚洲语言识别与语音转文本模型
Dolphin 是由 DataoceanAI 和清华大学合作开发的一个开源模型，专注于亚洲语言的语音识别和语言识别。它支持东亚、南亚、东南亚及中东地区的 40 种语言，以及 22 种中国方言。模型基于超过 21 万小时的音频数据训...
04-08 7430已赞
TwinMind
TwinMind 是由 ThirdEar AI, Inc. 开发的一款智能工具，主打“帮你记住一切”。它能把对话、会议或讲座实时录下来并转成文字，支持 100 多种语言，哪怕手机放口袋里也能离线用。用户不用自己记笔记，TwinMind 会自...
04-05 8700已赞
Wispr Flow：用语音在任何应用中快速输入文字
Wispr Flow 是一个通过语音输入文字的工具，帮助用户在电脑上快速写作。它主打“3倍于打字速度”的体验，用户只需自然说话，就能将文字输入到任何应用中，比如 Word、Slack 或 Gmail。Wispr Flow 支持100多种语言...
03-14 8220已赞
Local-NotebookLM：本地PDF生成语音播客的开源工具
Local-NotebookLM 是一个开源项目，旨在提供本地运行的智能文档处理与内容生成工具。它受到 Google NotebookLM 的启发，专注于帮助用户将 PDF 等文档转化为多种输出格式，如播客、访谈或讲座等，同时支持本地部署....
03-10 7580已赞
AssemblyAI：高精度语音转文字与音频智能分析平台
AssemblyAI 是一个专注于语音AI技术的平台，为开发者和企业提供高效的语音转文字和音频分析工具。其核心亮点在于 Universal 系列模型，尤其是最新发布的 Universal-2，这是 AssemblyAI 迄今最先进的语音转文...
03-06 7900已赞
FireRedASR：多语言高精度语音识别开源模型
FireRedASR 是由小红书 FireRed 团队开发并开源的语音识别模型，专注于提供高精度、多语言支持的自动语音识别（ASR）解决方案。项目托管于 GitHub，面向开发者与研究者，提供工业级设计，支持普通话、中文方言、...
03-04 7800已赞
WhisperChain：实时语音转文字并优化口语化词语
WhisperChain 是一个基于人工智能的开源项目，托管在 GitHub 上，由开发者 Chris Choy 主导开发。它主要用于将语音转化为文字，并通过 AI 技术自动优化表达，去除冗余的口语化词语（如“啊”“嗯”等填充词），提升文....
03-02 7700已赞
LLPlayer
LLPlayer 是一款专为语言学习者设计的开源媒体播放器，托管于 GitHub，由开发者 umlx5h 创建。它集成了多种实用功能，如双语字幕显示、AI 自动生成字幕、实时翻译和单词查询等，旨在帮助用户通过观看视频提升语言...
02-27 1.1 K0已赞
CapsWriter-Offline：PC端的语音输入和字幕转录工具
CapsWriter-Offline 是一个专注于PC端的语音输入和字幕转录工具，托管于 GitHub，由开发者 HaujetZhao 打造。它完全离线运行，无需联网即可实现语音转文字和音视频文件转录字幕的功能，支持无限时长录音、中英文.....
02-24 9070已赞