DeepResearchAgent是SkyworkAI开发的一款开源AI工具,专注于自动化深度研究。它通过结合搜索引擎、网页抓取和大型语言模型(LLM),帮助用户快速生成详细的研究报告。用户只需输入研究主题或问题,工具就能自动搜索、提取信息并整理成结构化的报告。项目托管在GitHub,面向开发者、研究人员和内容创作者,提供灵活的定制和本地运行支持。DeepResearchAgent强调隐私保护,支持本地部署,适合需要高效分析复杂主题的用户。
功能列表
- 自动化研究:根据用户输入的主题或问题,自动搜索并提取相关网页内容。
- 智能内容提取:利用网页抓取技术,精准提取网页中的关键信息。
- 报告生成:将搜索结果整理为结构化的研究报告,包含引用和格式化内容。
- 本地运行支持:可在用户本地环境运行,保护数据隐私。
- 多种LLM支持:兼容OpenAI、Anthropic、Deepseek等多种语言模型。
- 灵活交互:支持函数调用和非函数调用模式的LLM交互。
- 开源定制:提供完整源代码,允许用户根据需求修改和扩展功能。
使用帮助
安装流程
DeepResearchAgent需要在本地环境安装并配置。以下是详细的安装步骤,适用于熟悉Python和Docker的用户。
- 准备环境
确保系统已安装Python 3.10和Docker。Python用于运行核心程序,Docker用于容器化环境以确保一致性。- 检查Python版本:运行
python --version
,确认版本为3.10或更高。 - 安装Docker:访问Docker官网下载并安装。
- 检查Python版本:运行
- 克隆仓库
使用Git克隆DeepResearchAgent的代码库到本地:git clone https://github.com/SkyworkAI/DeepResearchAgent.git cd DeepResearchAgent
- 创建Python环境
使用Conda创建并激活虚拟环境,以隔离项目依赖:conda create -n deep_research python=3.10 conda activate deep_research
- 安装依赖
在项目根目录下,安装必要的Python依赖:pip install -e .
这会安装项目所需的核心库,包括网页抓取工具和LLM接口支持。
- 配置Docker环境
DeepResearchAgent使用Docker容器化交互环境,无需手动拉取镜像,程序会自动根据设备架构选择合适的镜像。用户需创建.env
文件配置LLM的API密钥:- 复制
.env.template
为.env
:cp .env.template .env
- 编辑
.env
文件,填入所需LLM的API密钥(如OpenAI、Deepseek等)。并非所有API密钥都必须填写,只需配置你计划使用的模型。
- 复制
- 启动程序
运行以下命令启动DeepResearchAgent:auto deep-research
这将启动工具,进入交互模式,准备接受用户输入。
功能操作流程
1. 自动化研究
用户启动工具后,可输入研究主题或具体问题。例如,输入“人工智能在医疗领域的应用”,工具会自动通过搜索引擎查找相关信息。DeepResearchAgent会调用内置的网页抓取模块,访问并提取网页中的文本、表格或其他结构化数据。用户无需手动指定搜索关键词,工具会通过LLM优化查询,找到高质量的来源。
2. 内容提取与整理
提取的信息会经过LLM处理,筛选出与主题最相关的部分。工具会自动去除广告、导航栏等无关内容,确保输出信息准确。用户可选择是否保留原始网页链接作为引用。提取完成后,信息被整理为段落、列表或表格,生成初步报告。
3. 报告生成
DeepResearchAgent支持生成结构化报告,包含引言、主要内容和参考文献。用户可在启动时通过命令行参数指定报告格式,例如Markdown或PDF。生成报告后,工具会自动保存到指定目录,方便用户后续编辑或分享。报告内容逻辑清晰,引用格式规范,适合学术或专业场景。
4. 本地运行与隐私保护
所有数据处理都在本地完成,无需上传到云端。用户可通过修改代码自定义数据处理逻辑,例如调整搜索范围或优化报告结构。开源代码支持开发者添加新功能,如支持更多LLM或集成其他数据源。
5. 兼容多种LLM
DeepResearchAgent支持多种主流LLM,用户可在.env
文件中配置API密钥。工具会根据配置自动选择模型处理任务。推荐的模型包括Deepseek和Grok,性能稳定且成本较低。用户也可通过修改代码支持自定义模型。
6. 命令行操作
启动后,用户可通过命令行交互。例如,运行auto deep-research --topic "区块链技术"
将针对区块链技术生成报告。更多参数可在官方文档中查看,例如设置报告语言或搜索深度。
注意事项
- 确保网络连接稳定,以便工具访问搜索引擎和网页。
- 配置API密钥时,检查模型是否需要额外付费(如OpenAI的GPT-4)。
- 本地运行需要至少8GB内存和4核CPU,以保证流畅处理复杂任务。
- 定期检查GitHub仓库更新,以获取最新功能和修复。
应用场景
- 学术研究
研究人员可使用DeepResearchAgent快速收集某一领域的最新文献和信息。例如,输入“量子计算最新进展”,工具会自动抓取学术网站、新闻和博客,生成包含关键发现和引用的报告。 - 内容创作
博客作者或记者可利用工具快速生成背景资料。例如,撰写关于“可再生能源趋势”的文章时,输入主题后即可获得结构化的市场分析和数据。 - 商业分析
企业用户可研究市场动态或竞争对手信息。例如,输入“2025年电动车市场”,工具会整理出行业报告、销量数据和趋势预测。 - 开发者定制
开发者可基于开源代码开发定制化研究工具。例如,添加特定数据库接口,生成针对行业的深度报告。
QA
- DeepResearchAgent是否需要联网?
是的,工具需要联网以访问搜索引擎和网页内容。但数据处理和报告生成在本地完成,保护用户隐私。 - 支持哪些语言的报告?
当前支持中文、英文等多种语言报告,具体语言取决于使用的LLM。用户可在配置中指定输出语言。 - 如何优化搜索结果质量?
在输入主题时尽量具体,例如“2025年AI芯片市场”比“AI芯片”更精准。用户也可通过代码调整搜索参数。 - 是否需要编程经验?
基本使用无需编程,命令行操作即可。但自定义功能需要Python和Git基础。