我要投稿

为什么Agent的知识库回答不准确

发布日期：2024-06-27 07:01:23 浏览次数： 2827 作者：AI咨询圈

知识库是Agent场景化的核心技能

知识库是智能体增强专业领域知识储备与理解，输出更精准、更专业回答的重要技能。智能体让大模型从通用走向行业垂类场景应用，而知识库则是智能体实现这一能力的最关键的技能。

大模型与用户交互过程中，根据知识库中检索到的相似内容、大模型润色后生成结果，可以有效限定模型的生成范围，提高内容生成质量。

如面向法律咨询的agent，创建法律法规库、诉讼案例库等知识库，能够提高agent法律问题咨询的权威性、精准性。
如在企业内部构建流程、制度知识库，新员工可以通过问答方式，快速了解和掌握特定工作的标准、程序，而过去只能通过被动的培训、课程学习、资料搜索获取这些知识。
如针对特定的业务场景，如国际上的四大会计事务所，都在建立自己的AI大模型，可以实现税务咨询、风险咨询特定业务的快速报告生成。
所以，智能体开发，基本绕不开知识库这个话题，一款好的场景化应用智能体，一定要建设一个高质量、可靠性的知识库。

知识库文档不是一传了之

知识库文档需要分段！！

文档分段处理的目的是将长文本切割成短段落，尽可能的剔除掉检索内容中的无关信息，以便模型更有效的处理和理解。

如下就是我在扣子平台上开发的一款智能体——AI秒读标书，配置了一个知识库。
上传的5个文档被自动切分为22个分段。
文档通过不同的颜色块做了分段的区分，蓝色和粉色就表示2个分段，而仔细看会发现，2个分段交接处的内容，被切分到了2个不同的分段中，这时候就容易导致模型回复出现信息丢失、不完整的情况。
这也就是为什么你搭建的问答知识库，明明文档中有答案，但模型回答的有时候不准确。

知识库文档的内容分段可以让大模型能够准确、完整的理解知识库的内容，从而提升用户查询模型回复的准确性。合理的内容分段对回复的效果有着直接影响。

如果没有分段，或者分段太大，可能包含太多不相关的信息，降低了检索的准确性。
如果分段太小，或者分段不合理，可能会丢失必要的上下文信息，导致生成的向回应缺乏连贯性或深度。
随着未来大模型进一步成熟，很可能并不需要做知识库文档的分片段设定了。但在当前的技术原理下，知识库的文档，并非是一传了之。上进行科学的文档分段设定，对于回复质量至关重要。

知识库文档分段的3个关键参数

扣子、文心、智谱等国内智能体开发平台，都可以提供知识库搭建功能，一般有系统自动分段、和自定义分段2种设置方式。

这里介绍下文心智能体开发平台关于文档分段的设置方法，需要研究3个参数：最大分段字符、段落重叠字符、分段方式（分段符号识别）。

1 最大分段字符