备用网址：www.kdjingpai.com

Ctrl + D 收藏本站

存档

 提交网站

Muyan-TTS：个性化播客语音训练与合成
综合介绍 Muyan-TTS 是一个专为播客场景设计的开源文本转语音（TTS）模型。它通过超过10万小时的播客音频数据预训练，支持零样本语音合成，生成高质量的自然语音。模型基于 Llama-3.2-3B 构建，结合 SoVITS 解码...
05-06 1550已赞
CAD-MCP：通过自然语言指令控制CAD软件的MCP服务
综合介绍 CAD-MCP 是一个开源项目，允许用户通过自然语言指令控制 CAD 软件进行绘图操作。它结合了自然语言处理和 CAD 自动化技术，让用户无需手动操作 CAD 界面，只需输入简单的文字命令即可创建和修改图纸。项...
05-06 1530已赞
Cotrans：一站式漫画图片翻译器(开源免费)
综合介绍 manga-image-translator（Cotrans翻译器开源版），用于翻译漫画或图片中的文字。提供命令行交互方式和在线演示，拥有批量转换模式、web服务器模式等多样化的使用选项。可设置多种语言目标翻译和.....
05-06 1.5 K0已赞
GraphGen：利用知识图谱生成合成数据微调语言模型
综合介绍 GraphGen 是一个由上海人工智能实验室 OpenScienceLab 开发的开源框架，托管于 GitHub，专注于通过知识图谱指导合成数据生成，优化大语言模型（LLM）的监督微调。它从源文本构建细粒度知识图谱，利用预...
05-05 890已赞
ACI.DEV：通过MCP服务器为AI智能体集成600+工具
综合介绍 ACI.dev 是一个开源基础设施平台，专为 AI 智能体提供与 600 多种工具的快速集成。它通过多租户认证和细粒度权限管理，确保智能体安全访问工具，如 Google Calendar、Slack 和 Brave Search。...
05-05 820已赞
llm.pdf：在PDF文件中运行大型语言模型的实验项目
综合介绍 llm.pdf 是一个开源项目，允许用户在 PDF 文件中直接运行大型语言模型（LLM）。这个项目由 EvanZhouDev 开发，托管在 GitHub 上，展示了一种创新的方法：通过 Emscripten 将 llama.cpp...
05-05 1050已赞
Abogen：将多种文本格式转换为有声读物的工具
综合介绍 Abogen 是一个开源工具，专为将 ePub、PDF 或纯文本文件快速转换为高质量音频而设计。它使用 Kokoro-82M 模型生成自然流畅的语音，同时支持同步字幕生成，适合制作有声读物、视频配音或学习辅助材料。用...
05-05 760已赞
Local Deep Research：本地运行的生成深度研究报告工具
综合介绍 Local Deep Research 是一个开源的人工智能研究助手，旨在帮助用户针对复杂问题进行深度研究并生成详细的报告。它支持本地运行，使用户可以在不依赖云服务的情况下完成研究任务。工具结合了本地大语言模...
05-05 990已赞
DeepWiki：自动生成GitHub仓库文档并用AI对话
综合介绍 DeepWiki 是一个由 Cognition AI 推出的免费工具，专注于为 GitHub 仓库生成结构化、类似维基百科的文档。它通过分析代码、README 文件和配置文件，自动创建详细的文档和交互式图表，帮助开发者快速理解.....
05-05 1390已赞
Trackers：用于视频对象跟踪的开源工具库
综合介绍 Trackers 是一个开源的 Python 工具库，专注于视频中的多对象跟踪。它集成了多种领先的跟踪算法，如 SORT 和 DeepSORT，允许用户结合不同的对象检测模型（如 YOLO、RT-DETR）进行灵活的视频分析。用户...
05-05 1120已赞
Kimi-Audio：开源音频处理与对话基础模型
综合介绍 Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型，专注于音频理解、生成和对话。它支持多种音频处理任务，例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练，...
05-05 880已赞
Describe Anything：为图像和视频区域生成详细描述的开源工具
综合介绍 Describe Anything 是由 NVIDIA 和多所大学联合开发的开源项目，核心是 Describe Anything Model（DAM）。这个工具能根据用户在图像或视频中标记的区域（如点、框、涂鸦或掩码），生成详细的...
05-05 680已赞
Cooragent：一句话构建多智能体任务协作工具
综合介绍 Cooragent 是清华大学 LeapLab 开发的开源 AI 代理协作框架，托管于 GitHub。它允许用户通过一句话描述创建智能 AI 代理，并支持多个代理协作完成复杂任务。框架提供两种模式：Agent Factory 自动...
05-05 1010已赞
InstantCharacter：从单张图片生成一致性角色的开源工具
综合介绍 InstantCharacter 是由腾讯 Hunyuan 和 InstantX 团队开发的一个开源项目，托管在 GitHub 上。它通过一张参考图片和一句文本描述，就能生成外观一致的角色图像，适用于多种场景和风格。项目基于扩散变...
05-05 980已赞
Claude生成深度研究报告的MCP服务
综合介绍 MCP Server Deep Research 是一个开源工具，通过人工智能和网页搜索，自动为复杂问题生成结构化的研究报告。用户输入研究问题，工具会分解问题、搜索权威信息、评估来源可信度，并生成包含引用的 Markdo...
05-05 1180已赞
Deep Recall：为大模型提供企业级记忆框架的开源工具
综合介绍 Deep Recall 是一个开源的企业级记忆框架，专为大型语言模型（LLM）设计。它通过高效的上下文检索和整合，提供超个性化的响应能力。框架采用三层架构，包括记忆服务、推理服务和协调器，支持GPU优化推理...
05-05 880已赞
CleverBee：开源AI研究助手，生成引证研究报告
综合介绍 CleverBee 是一个开源的 AI 研究助手，托管在 GitHub 上，由 SureScaleAI 开发。它通过大语言模型（如 Gemini 和 Claude）结合网页浏览技术，帮助用户快速收集、分析和总结信息，生成带引证的研...
05-05 740已赞
FantasyTalking：生成真实感说话肖像的开源工具
综合介绍 FantasyTalking 是一个由 Fantasy-AMAP 团队开发的开源项目，专注于通过音频驱动生成真实感说话肖像视频。项目基于先进的视频扩散模型 Wan2.1，结合音频编码器 Wav2Vec 和专有模型权重，利用人工智能...
05-05 770已赞
Paper2Code：将机器学习论文自动转化为可运行代码
综合介绍 Paper2Code 是一个开源项目，旨在解决机器学习论文缺乏代码实现的问题。它通过多代理大语言模型（LLM）系统 PaperCoder，将科学论文自动转化为可运行的代码仓库。系统采用规划、分析和代码生成三阶段流...
05-05 1020已赞

点击加载更多