微信扫码
与创始人交个朋友
我要投稿
上一篇文章,专门介绍了agent的知识库分段。为了规避AI的幻觉,在开发agent时,通常会配置专有领域的文档,形成私有知识库。
大模型并不像人类一样,读完这些文档,就能够完全理解文中含义。大模型其实是分片段来消化和理解文档内容的。所以,结合文档内容特点、使用场景,科学设计文档分段规则,就非常重要,直接影响模型输出质量。
上篇文章:为什么Agent的知识库回答不准确
本文是作者根据文心智能体平台的知识库官方指导文档的整理,通过3个典型的案例,来展示如何选择适合的分段方法。
长文本内容上下文理解分段案例
1.适用业务场景
案例适用于小说、电子书刊、课文、公司介绍、论文、专利文件等,需要模型结合上下文理解语义的长文本内容。
案例文件:装在套子里的人(可网络搜索该文章)
2.检索结果测试
向智能体问一个知识库中的问题:别里科夫为什么没有结婚?
智能体润色输出结果如下:
使用了系统默认的分段规则,模型的分段检索情况如下:
3.文档分段思路总结
推荐使用默认分段即可。
• 最大段落字符:长文本内容段落一般比较长,段落和段落之间也有一些承上启下的关系,因此最大段落字符可以设置的大一点,尽量保证段落中包含完整的语义,模型理解才能更加准确。
• 段落重叠字符:当段落需要上下文理解时,段落重叠字符可以按需填写,尽量让上下文之间的相关内容展示在一个段落中。
• 分段方式:默认分段的分段符号基本包含大部分文本分段方式,如分段结果不合适,可查看文档适合切割位置的符号,选择或输入添加分段符号,将按照分段符号选择顺序进行切割。
分段优化思路
尽量保证相同语义的文本切割在一个段落,因为段落字符数限制无法分成一段的,可以通过段落重叠字符进行段落之间的关联,让模型在检索时,可以增加被同时检索到的概率,综合理解输出结果。
结构性内容分段案例
1.适用业务场景
案例适用于客服聊天记录、销售话术等场景的一问一答、文本表格等有鲜明的结构特点的内容,需要模型理解结构内的内容语义。
案例文件:文心智能体平台常见问答(内容详见文末附件2)
2.检索结果测试
(1)使用系统默认分段规则
向智能体问一个知识库中的问题:文字类指令怎么写?
智能体润色输出结果如下:
使用系统默认的分段规则,模型的分段检索情况如下,一问一答的源文档内容,容易被切分到不同的片段中。
(2)使用自定义分段规则
同样的问题,智能体润色输出结果如下,输入质量要高于默认分段规则的输出结果。
使用自定义分段规则,模型的分段检索情况如下,将每一个问答内容,划分到同一个分段中。
3.文档分段思路总结
建议进行自定义分段(如下文的的自定义分段方式),要尽量保证同一结构内的文本切割在一个段落。
• 最大段落字符:先看一下原文结构中,每个结构内的字符数平均是多少,就将最大段落字符数设置为多少左右,大概选几个有代表性的段落计算平均字符数即可。比如示例文件,是一问一答结构,共有 2 个段落,平均字符数是 340 个字符,最大段落字符数设置就为 340 个字符。
• 段落重叠字符:分段后的段落之间不需要上下文关联理解,因此段落重叠字符设置为 0。若因为段落字符数限制无法分成一段的,可以通过段落重叠字符进行段落之间的关联,让模型在检索时,可以增加被同时检索到的概率,综合理解输出结果。
• 分段方式:文档中比较鲜明的结构时,每组问答都有标记"问"、"答",而我们希望可以按照一问一答的结构进行分段,则可以将"问"作为分段符号,且在"问"符号前进行分段,就可以得到一问一答结构的分段结果了。
Excel 数据类内容分段案例
1.适用业务场景
案例适用于具体数据查询、数据统计类的 Excel 表格数据类,行与行之间的数据,除统计外没有其他关联性的内容。
案例文件:2023年电影票房数据(内容详见文末附件3)
2.检索结果测试
(1)统计分析场景
向智能体询问数据统计类的问题:2023年1月22日上映了几部电影?
智能体润色输出结果如下:
模型检索分段情况如下:
(2)非统计分析场景
向智能体询问非统计类的问题:封神第一部,一共上映了多少场?
智能体润色输出结果如下:
3.文档分段思路总结
推荐使用自定义分段,尽量保证输入给模型的原始数据的完整性,最终的统计结果正确率才会高具体的分段结果可下载示例文件创建知识库后查看
• 最大段落字符:为了保证检索段落的完整性,需要将最大段落字符数设置到最大限制的 512 个字符。
• 段落重叠字符:为了减少重叠字符占用段落的字符数容量,段落重叠字符需要设置为 0。
• 分段方式:表格类型的数据可以直接按行切割,分段方式选择"换行"。
分段优化思路
因模型限制知识库最多可输出 2000 字符,则尽可能的将需要计算的数据分到 1~3 个分段中。较大量级的数据统计,建议上传的 Excel 表格不要超过 2 列,才能保证输入给模型的 3 个段落中,已包含统计所需的所有数据。
注意:
表头对分段结果的检索非常重要,是模型理解数据的关键信息,因此数据表头需要具有明确的语义,尽量不要使用模型无法理解的生僻词汇。
对于有统计分析需要的插件或者智能体,需要在插件或者智能体的指令提示中,说明详细的计算步骤,可以提升模型统计结果的准确性。
附件1:装在套子里的人(略,网络搜索)
附件2:文心智能体平台常见问答
附件3:2023年电影票房数据
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-17
2024-07-11
2024-07-13
2024-08-13
2024-07-08
2024-07-12
2024-07-26
2024-07-04
2024-06-10
2024-04-10
2024-11-04
2024-10-10
2024-10-03
2024-09-27
2024-09-08
2024-09-05
2024-08-27
2024-08-24