AI音频

 提交网站

RealtimeVoiceChat
RealtimeVoiceChat 是一个开源项目，专注于通过语音与人工智能进行实时、自然的对话。用户使用麦克风输入语音，系统通过浏览器捕获音频，快速转为文字，由大型语言模型（LLM）生成回复，再将文字转为语音输出，整...
1.1 K直达0已赞
0已收藏
Transkriptor
Transkriptor 是一个人工智能驱动的转录工具，专注于将音频和视频快速转为文字。它支持超过100种语言，准确率高达99%，适用于会议、采访、课堂笔记等多种场景。用户可以上传文件、直接录音或通过链接转录Zoom、Go...
932直达0已赞
0已收藏
海螺语音(MiniMax Audio)：生成自然语音的AI工具
MiniMax Audio 是 MiniMax 公司推出的一款 AI 语音生成工具，核心特点是快速将文字转为高相似度的自然语音。它基于 Speech-02 模型，语音合成相似度高达 99%，音质达到录音室级别，支持超过 30 种语言和多种口...
960直达1已赞
0已收藏
TwinMind
TwinMind 是由 ThirdEar AI, Inc. 开发的一款智能工具，主打“帮你记住一切”。它能把对话、会议或讲座实时录下来并转成文字，支持 100 多种语言，哪怕手机放口袋里也能离线用。用户不用自己记笔记，TwinMind 会自...
845直达0已赞
0已收藏
OpenAI Realtime Agents
OpenAI Realtime Agents是一个开源项目，旨在展示如何利用OpenAI的实时API来构建多智能体的语音应用。它提供了高级的智能体模式（借鉴 OpenAI Swarm），允许开发者在短时间内搭建出复杂的多智能体语音系统。该项...
1.4 K直达0已赞
0已收藏
百聆 (Bailing)
百聆（Bailing）是一个开源的语音对话助手，旨在通过语音与用户进行自然的对话。该项目结合了语音识别（ASR）、语音活动检测（VAD）、大语言模型（LLM）和语音合成（TTS）技术，实现了类似GPT-4o的语音对话机器人...
1.4 K直达0已赞
0已收藏
“Always-On” Deepseek AI Assistant：基于Deepseek-V3打造智能语音交互系统
Always-On AI Assistant是一个创新的AI助手项目，它通过整合Deepseek-V3、RealtimeSTT和Typer等先进技术，打造了一个功能强大的永久在线AI助理系统。该项目特别针对工程开发场景进行优化，提供了完整的...
2.1 K直达0已赞
0已收藏
小智 AI 聊天机器人
小智 AI 聊天机器人是一个基于ESP32开发板的开源项目，旨在帮助用户构建自己的AI聊天伴侣。该项目由虾哥开发，主要用于教学目的，帮助更多人入门AI硬件开发，并了解如何将大语言模型应用到实际的硬件设备中。项目...
2.1 K直达0已赞
0已收藏
Fish Agent
Fish Speech 衍生项目 Fish Agent 是一款革命性的端到端AI语音克隆系统，基于V0.1 3B模型架构开发。作为一个完全端到端的语音克隆处理系统，其最大特点是采用创新的无语义标记架构设计，无需依赖Whisper等传统语.....
1.6 K直达0已赞
0已收藏
Voice-Pro
Voice-Pro 是一个基于 Gradio WebUI 的多功能工具，支持语音转文字、文本转语音、实时翻译、YouTube 视频下载和人声分离。它集成了 Whisper、Faster-Whisper 和 Whisper-Timestamp...
1.5 K直达0已赞
0已收藏
Ichigo（llama3-s）
Ichigo是一个开源的实时语音AI项目，旨在扩展基于文本的语言模型，使其具备原生的“听力”能力。该项目采用了早期融合技术，灵感来自Meta的Chameleon论文。Ichigo的目标是成为一个开源数据、开源权重的本地设备语音...
1.7 K直达0已赞
0已收藏
AI Hear
如果你在用 MacBook，试试 AI Hear：可以录音、实时本地语音转文字、并翻译、最终导出字幕。可以用它辅助你听跨国会议、英文有声书。 AI Hear是一款本地运行的软件，提供一键实时翻译和转录功能，支持多种语言。...
1.4 K直达0已赞
0已收藏
趣丸千音
趣丸千音是一款多语种AI语音合成平台，提供逼真自然的声音生成方案。用户可以轻松将文本内容转换成专业级音频，支持从零样本创建专属AI语音（语音克隆），满足个性化需求。平台还提供视频翻译功能，帮助用户实现...
1.4 K直达0已赞
0已收藏
通义听悟
通义听悟是阿里云推出的一款工作学习AI助手，专注于音视频内容的转写和分析。它依托阿里云的强大AI模型，能够将音视频内容实时转写成文字，并提供翻译、总结、定位等功能。通义听悟支持多种语言和场景，帮助用户...
1.7 K直达1已赞
0已收藏
腾讯智影
腾讯智影是腾讯公司推出的在线智能视频创作平台，通过云端服务提供的强大AI工具，能支持文本配音、数字人播报、自动字幕识别等功能，它集素材搜索、视频剪辑、渲染出口和发布于一体，为用户带来便捷的视频编辑和...
1.7 K直达0已赞
0已收藏