AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI 搜索产品+1,实测 MindSearch 产品效果及代码实现
发布日期:2024-08-11 20:05:29 浏览次数: 1971 来源:AI 搜索引擎


最近书生·浦语团队做了一个名为 MindSearch 的搜索产品。

MindSearch 整体框架
在线体验:
1. https://mindsearch.openxlab.org.cn/
2. https://modelscope.cn/studios/Shanghai_AI_Laboratory/MindSearch

首先摘要一下目前 AI 搜索产品的大体技术思路:

  1. 用户的输入一般都是含糊或不准确的,所以需要对用户的输入进行重写,拆分,将其描述成更简短,清晰的子任务。然后生成一个针对这个问题的处理步骤,一般叫做 plan

  2. 用户不同的输入背后代表着不同的意图,不同的意图需要不同的处理流程来满足用户的期望,所以需要对用户的意图进行准确的识别

  3. 为了保证模型对问题回答的相关性与准确性,以及用户可验证性,需要对接联网检索,通过网络搜索相关信息,而且可以方便用户点击回原链接验证

  4. 网络搜索到的信息会很多,不仅会超出 Token 限制,而且还会使得模型没法获取到信息的关键信息,所以会迭代的拆成多步来进行信息提取,每次迭代的过程中告诉模型需要从信息中提取哪些关键信息

  5. 多个 agent 一般都会赋予不同角色,期望模型通过交叉比对的方式来提升信息获取以及反思能力,从而提升整体的效果

MindSearch 效果

我们先来问一个问题:总结一下 AI 搜索

可以看到,针对这个问题 MindSearch 先做的拆分是:AI 搜索的基本概念、AI 搜索应用领域、AI 搜索应用实例,生成了一个基础的 plan。
然后它先又把 AI 搜索的基本概念做了一个拆分:AI 搜索的定义和基本概念、AI 搜索的工作原理、AI 搜索的应用场景、AI 搜索与其他搜索技术的区别。
接着就开始根据拆分后的关键词进行联网查询,根据联网后的查询进行信息总结,然后更新 plan,更新后的效果如下:
但是这里面也可以看到目前系统存在的问题,在信息总结之后 plan 的更新不是递进式的,中间会有跳跃的情况,递进的形式在用户体验上会更好些。
之后系统就进入了很长时间的信息处理状态,这个也是目前多 Agent 系统存在的普遍问题,系统运行时间很长,这个问题有两个原因:
  1. 大多数系统的 Prompt 都是结构化的,其中会包含很多信息:网络搜索的内容,本身的任务描述,fewshot,多轮对话还会有对话历史,这些会导致模型的输入很长,输出时间慢,目前除 GPT 4o mini 其他的还没有看到更快的模型输出

  2. 目前的多 Agent 系统一般都不会与模型只交互一轮就给用户输出结果,而是会进行多次的处理,时间累加后使得用户最后得到结果的时间长。比如吴恩达老师的 translation agent,流程是翻译->反思->重新输出,这个流程的时间肯定会比单轮的更长

最后模型会输出总结后的效果所以信息整合后的效果。但是在这里 MindSearch 就没有办法看到模型的中间结果了,比如第一步 AI 搜索的基本概念我还想再详细的看一些信息时,已经被后续的信息流覆盖掉了。

MindSearch 技术实现

因为 MindSearch 是开源的[1],可以看到其具体的技术实现,我们来看一下 plan 对应的提示词(截取的关键信息):
代码位置:https://github.com/InternLM/MindSearch/blob/b3667655a53b11ad35660b5f275bcc6addb2586c/mindsearch/agent/mindsearch_prompt.py#L166C1-L181C1

## 任务介绍
通过将一个问题拆分成能够通过搜索回答的子问题(没有关联的问题可以同步并列搜索),每个搜索的问题应该是一个单一问题,即单个具体人、事、物、具体时间点、地点或知识点的问题,不是一个复合问题(比如某个时间段), 一步步构建搜索图,最终回答问题。

## 注意事项

1. 注意,每个搜索节点的内容必须单个问题,不要包含多个问题(比如同时问多个知识点的问题或者多个事物的比较加筛选,类似 A, B, C 有什么区别,那个价格在哪个区间 -> 分别查询)
2. 不要杜撰搜索结果,要等待代码返回结果
3. 同样的问题不要重复提问,可以在已有问题的基础上继续提问
4. 添加 response 节点的时候,要单独添加,不要和其他节点一起添加,不能同时添加 response 节点和其他节点
5. 一次输出中,不要包含多个代码块,每次只能有一个代码块
6. 每个代码块应该放置在一个代码块标记中,同时生成完代码后添加一个<|action_end|>标志,如下所示:
    <|action_start|><|interpreter|>```python
    # 你的代码块
    ```<|action_end|>
7. 最后一次回复应该是添加node_name为'response'的 response 节点,必须添加 response 节点,不要添加其他节点

设定的 fewshot

代码位置:https://github.com/InternLM/MindSearch/blob/b3667655a53b11ad35660b5f275bcc6addb2586c/mindsearch/agent/mindsearch_prompt.py#L277C1-L293C4

## 返回格式示例
<|action_start|><|interpreter|>```python
graph = WebSearchGraph()
graph.add_root_node(node_content="哪家大模型API最便宜?", node_name="root"# 添加原始问题作为根节点
graph.add_node(
        node_name="大模型API提供商"# 节点名称最好有意义
        node_content="目前有哪些主要的大模型API提供商?")
graph.add_node(
        node_name="sub_name_2"# 节点名称最好有意义
        node_content="content of sub_name_2")
...
graph.add_edge(start_node="root", end_node="sub_name_1")
...
graph.node("大模型API提供商"), graph.node("sub_name_2"), ...
```<|action_end|>

上面是做规划的部分,接下来是网络搜索的部分。

代码位置:https://github.com/InternLM/MindSearch/blob/b3667655a53b11ad35660b5f275bcc6addb2586c/mindsearch/agent/mindsearch_prompt.py#L3C32-L16C38

## 人物简介
你是一个可以调用网络搜索工具的智能助手。请根据"当前问题",调用搜索工具收集信息并回复问题。你能够调用如下工具:
{tool_info}
## 回复格式

调用工具时,请按照以下格式:

你的思考过程...<|action_start|><|plugin|>{{"name": "tool_name", "parameters": {{"param1": "value1"}}}}<|action_end|>

## 要求

- 回答中每个关键点需标注引用的搜索结果来源,以确保信息的可信度。给出索引的形式为`[[int]]`,如果有多个索引,则用多个[[]]表示,如`[[id_1]][[id_2]]`。
- 基于"当前问题"的搜索结果,撰写详细完备的回复,优先回答"当前问题"

设定的 fewshot

代码位置:https://github.com/InternLM/MindSearch/blob/b3667655a53b11ad35660b5f275bcc6addb2586c/mindsearch/agent/mindsearch_prompt.py#L36C1-L45C4

## 样例

### search
当我希望搜索"王者荣耀现在是什么赛季"时,我会按照以下格式进行操作:
现在是2024年,因此我应该搜索王者荣耀赛季关键词<|action_start|><|plugin|>{{"name": "FastWebBrowser.search", "parameters": {{"query": ["王者荣耀 赛季", "2024年王者荣耀赛季"]}}}}<|action_end|>

### select
为了找到王者荣耀s36赛季最强射手,我需要寻找提及王者荣耀s36射手的网页。初步浏览网页后,发现网页0提到王者荣耀s36赛季的信息,但没有具体提及射手的相关信息。网页3提到“s36最强射手出现?”,有可能包含最强射手信息。网页13提到“四大T0英雄崛起,射手荣耀降临”,可能包含最强射手的信息。因此,我选择了网页3和网页13进行进一步阅读。<|action_start|><|plugin|>{{"name": "FastWebBrowser.select", "parameters": {{"index": [3, 13]}}}}<|action_end|>

最后返回给用户的输出部分的提示词:

代码位置:https://github.com/InternLM/MindSearch/blob/b3667655a53b11ad35660b5f275bcc6addb2586c/mindsearch/agent/mindsearch_prompt.py#L314C24-L319C31

基于提供的问答对,撰写一篇详细完备的最终回答。
- 回答内容需要逻辑清晰,层次分明,确保读者易于理解。
- 回答中每个关键点需标注引用的搜索结果来源(保持跟问答对中的索引一致),以确保信息的可信度。给出索引的形式为`[[int]]`,如果有多个索引,则用多个[[]]表示,如`[[id_1]][[id_2]]`。
- 回答部分需要全面且完备,不要出现"基于上述内容"等模糊表达,最终呈现的回答不包括提供给你的问答对。
- 语言风格需要专业、严谨,避免口语化表达。
- 保持统一的语法和词汇使用,确保整体文档的一致性和连贯性。
因为 MindSearch 依赖 lagent[2],所以代码实现要交叉看才行,比如 LLM 的调用,搜索工具的调用等。

本地运行 MindSearch

运行步骤在项目的 README 中写的比较详细了,可能遇到的问题:

  1. 如果要使用 gpt4 运行的话,记得 export OPENAI_API_KEY

  2. json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1) 可以试试先 uninstall lagent 再重新执行 pip install git+https://github.com/InternLM/lagent.git

  3. RuntimeError: Operation on the closed queue is forbidden已经有同学在 https://github.com/InternLM/MindSearch/issues/77 pr 中修复了,且已经 merge,可以拉一下最新的代码


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询