微信扫码
与创始人交个朋友
我要投稿
知识库是Agent场景化的核心技能
智能体的知识库典型的应用场景包括:
语料补充:如特定形象的聊天agent,可以在知识库中保存该形象相关的语料。后续 agent会通过向量召回最相关的语料,模仿该该形象的语言风格进行回答。
智能客服:将客户服务手册、产品手册、用户高频咨询的问题库等上传到到知识库,agent 可以通过学习、调用这些知识,精准回答用户问题,减少人工投入。
垂直应用:面向某个具体的行业、企业或业务场景,构建专有知识库。
如面向法律咨询的agent,创建法律法规库、诉讼案例库等知识库,能够提高agent法律问题咨询的权威性、精准性。
如在企业内部构建流程、制度知识库,新员工可以通过问答方式,快速了解和掌握特定工作的标准、程序,而过去只能通过被动的培训、课程学习、资料搜索获取这些知识。
如针对特定的业务场景,如国际上的四大会计事务所,都在建立自己的AI大模型,可以实现税务咨询、风险咨询特定业务的快速报告生成。
所以,智能体开发,基本绕不开知识库这个话题,一款好的场景化应用智能体,一定要建设一个高质量、可靠性的知识库。
知识库文档不是一传了之
知识库文档需要分段!!
文档分段处理的目的是将长文本切割成短段落,尽可能的剔除掉检索内容中的无关信息,以便模型更有效的处理和理解。
如下就是我在扣子平台上开发的一款智能体——AI秒读标书,配置了一个知识库。
上传的5个文档被自动切分为22个分段。
文档通过不同的颜色块做了分段的区分,蓝色和粉色就表示2个分段,而仔细看会发现,2个分段交接处的内容,被切分到了2个不同的分段中,这时候就容易导致模型回复出现信息丢失、不完整的情况。
这也就是为什么你搭建的问答知识库,明明文档中有答案,但模型回答的有时候不准确。
知识库文档的内容分段可以让大模型能够准确、完整的理解知识库的内容,从而提升用户查询模型回复的准确性。合理的内容分段对回复的效果有着直接影响。
如果没有分段,或者分段太大,可能包含太多不相关的信息,降低了检索的准确性。
如果分段太小,或者分段不合理,可能会丢失必要的上下文信息,导致生成的向回应缺乏连贯性或深度。
随着未来大模型进一步成熟,很可能并不需要做知识库文档的分片段设定了。但在当前的技术原理下,知识库的文档,并非是一传了之。上进行科学的文档分段设定,对于回复质量至关重要。
知识库文档分段的3个关键参数
扣子、文心、智谱等国内智能体开发平台,都可以提供知识库搭建功能,一般有系统自动分段、和自定义分段2种设置方式。
这里介绍下文心智能体开发平台关于文档分段的设置方法,需要研究3个参数:最大分段字符、段落重叠字符、分段方式(分段符号识别)。
1 最大分段字符
最大分段字符,是指长文档被切割成片段后,每个片段的最大段落字符数,在文心智能体的知识库中,可以填写 50~512 中的任意数字。
最大分段字符的设置原则,是要尽量确保片段的内容排布合理性,特别是一些数据类、公式类不可分割的内容,如果被分到了不同的片段,则会对检索结果造成较大影响。
如下示例的正反对比,就很典型:
2 段落重叠字符
段落重叠字符,是指每个新的分段的开头,和前一个分段的末尾,最大可重复的字符数。
注意段落重叠字符数需小于最大段落字符数,尽可能的保留切割分段后的原语义,避免语句分割导致表达不完整,帮助模型理解更准确完整。
通常段落重叠字符都要做一些重叠设置,因为长文档谁也无法保证分段的结果是自然丝滑的,一定的重叠度,就能够确保上下段落可以被关联起来。
如下案例,就是重叠度为0,和设置一定重叠度的效果。
3 分段方式(分段符号识别)
分段方式是指长文本切割的分段符号,可以选择常用分段符,也可以输入任意符号,在切割文本时,将按照分段符号排序选择切割位置。
如下案例,展示分段符号的设置。
当你知道了知识库的这些参数后,也可以反向优化知识库文档,从而达到更好的分段效果。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-21
2024-08-13
2024-04-11
2024-07-09
2024-07-18
2024-10-25
2024-07-01
2024-06-16