综合介绍 Muyan-TTS 是一个专为播客场景设计的开源文本转语音(TTS)模型。它通过超过10万小时的播客音频数据预训练,支持零样本语音合成,生成高质量的自然语音。模型基于 Llama-3.2-3B 构建,结合 SoVITS 解码...
综合介绍 CAD-MCP 是一个开源项目,允许用户通过自然语言指令控制 CAD 软件进行绘图操作。它结合了自然语言处理和 CAD 自动化技术,让用户无需手动操作 CAD 界面,只需输入简单的文字命令即可创建和修改图纸。项...
综合介绍 manga-image-translator(Cotrans翻译器开源版),用于翻译漫画或图片中的文字。提供命令行交互方式和在线演示,拥有批量转换模式、web服务器模式等多样化的使用选项。可设置多种语言目标翻译和.....
综合介绍 GraphGen 是一个由上海人工智能实验室 OpenScienceLab 开发的开源框架,托管于 GitHub,专注于通过知识图谱指导合成数据生成,优化大语言模型(LLM)的监督微调。它从源文本构建细粒度知识图谱,利用预...
综合介绍 ACI.dev 是一个开源基础设施平台,专为 AI 智能体提供与 600 多种工具的快速集成。它通过多租户认证和细粒度权限管理,确保智能体安全访问工具,如 Google Calendar、Slack 和 Brave Search。...
综合介绍 llm.pdf 是一个开源项目,允许用户在 PDF 文件中直接运行大型语言模型(LLM)。这个项目由 EvanZhouDev 开发,托管在 GitHub 上,展示了一种创新的方法:通过 Emscripten 将 llama.cpp...
综合介绍 Abogen 是一个开源工具,专为将 ePub、PDF 或纯文本文件快速转换为高质量音频而设计。它使用 Kokoro-82M 模型生成自然流畅的语音,同时支持同步字幕生成,适合制作有声读物、视频配音或学习辅助材料。用...
综合介绍 Local Deep Research 是一个开源的人工智能研究助手,旨在帮助用户针对复杂问题进行深度研究并生成详细的报告。它支持本地运行,使用户可以在不依赖云服务的情况下完成研究任务。工具结合了本地大语言模...
综合介绍 DeepWiki 是一个由 Cognition AI 推出的免费工具,专注于为 GitHub 仓库生成结构化、类似维基百科的文档。它通过分析代码、README 文件和配置文件,自动创建详细的文档和交互式图表,帮助开发者快速理解.....
综合介绍 Trackers 是一个开源的 Python 工具库,专注于视频中的多对象跟踪。它集成了多种领先的跟踪算法,如 SORT 和 DeepSORT,允许用户结合不同的对象检测模型(如 YOLO、RT-DETR)进行灵活的视频分析。用户...
综合介绍 Kimi-Audio 是由 Moonshot AI 开发的一款开源音频基础模型,专注于音频理解、生成和对话。它支持多种音频处理任务,例如语音识别、音频问答和语音情感识别。模型经过超过 1300 万小时的音频数据预训练,...
综合介绍 Describe Anything 是由 NVIDIA 和多所大学联合开发的开源项目,核心是 Describe Anything Model(DAM)。这个工具能根据用户在图像或视频中标记的区域(如点、框、涂鸦或掩码),生成详细的...
综合介绍 Cooragent 是清华大学 LeapLab 开发的开源 AI 代理协作框架,托管于 GitHub。它允许用户通过一句话描述创建智能 AI 代理,并支持多个代理协作完成复杂任务。框架提供两种模式:Agent Factory 自动...
综合介绍 InstantCharacter 是由腾讯 Hunyuan 和 InstantX 团队开发的一个开源项目,托管在 GitHub 上。它通过一张参考图片和一句文本描述,就能生成外观一致的角色图像,适用于多种场景和风格。项目基于扩散变...
综合介绍 MCP Server Deep Research 是一个开源工具,通过人工智能和网页搜索,自动为复杂问题生成结构化的研究报告。用户输入研究问题,工具会分解问题、搜索权威信息、评估来源可信度,并生成包含引用的 Markdo...
综合介绍 Deep Recall 是一个开源的企业级记忆框架,专为大型语言模型(LLM)设计。它通过高效的上下文检索和整合,提供超个性化的响应能力。框架采用三层架构,包括记忆服务、推理服务和协调器,支持GPU优化推理...
综合介绍 CleverBee 是一个开源的 AI 研究助手,托管在 GitHub 上,由 SureScaleAI 开发。它通过大语言模型(如 Gemini 和 Claude)结合网页浏览技术,帮助用户快速收集、分析和总结信息,生成带引证的研...
综合介绍 FantasyTalking 是一个由 Fantasy-AMAP 团队开发的开源项目,专注于通过音频驱动生成真实感说话肖像视频。项目基于先进的视频扩散模型 Wan2.1,结合音频编码器 Wav2Vec 和专有模型权重,利用人工智能...
综合介绍 Paper2Code 是一个开源项目,旨在解决机器学习论文缺乏代码实现的问题。它通过多代理大语言模型(LLM)系统 PaperCoder,将科学论文自动转化为可运行的代码仓库。系统采用规划、分析和代码生成三阶段流...