微信扫码
与创始人交个朋友
我要投稿
作者 | 柴思远
切片问题:传统按长度切片方法效果不佳,因为政策内容知识密度高,每句话都可能包含答案,且条款间关联性强,需要连续多个条款才能完整回答问题。
Embedding 微调:通用 Embedding 模型不足以应对用户口语化严重的问题,需要针对具体业务场景进行微调,以过滤无关信息并提高准确度。
Query vs Original:简单高效,数据结构是直接使用用户 query 召回知识库片段;
Query vs Query:便于维护,即使用用户的 query 召回 query,冷启动的时候可以利用模型自动化从对应的知识片段中抽取 query;
Query vs Summary:使用 query 召回知识片段的摘要,构建摘要和知识片段之间的映射关系;
F-Answer vs Original:根据用户 query 生成 fake answer 去召回知识片段。
数据标注难度大:业务人员虽然知道正确答案,但难以标注出满足一致性和多样性要求的模型微调数据。因此,我们需要在获取基础答案后,通过模型润色改写答案或增加 COT 的语言逻辑,以提高数据的多样性和一致性。
问答种类多样:业务需要模型能够正确回答、拒答不相关问题和反问以获取完整信息。这要求我们通过构造特定的数据来训练提升模型在这些方面的能力。
知识混淆度高:在问答场景中,召回精度有限,模型需要先从大量相关知识片段中找到有效答案,这个过程在政务等领域难度很大,需要通过增加噪声数据来强化模型的知识搜索能力。
答案专业度高:在公共服务的客服场景,答案往往没有绝对准确性,资深的客服人员总能给出更有帮助性的答案。用户问题通常含糊,更加考验专业人员的回答能力。因此我们需要通过 DPO 方式训练模型,使模型能够在众多答案中找到最好最优的答案。为此,我们需要分别构造数据,并针对模型做 SFT 和 DPO。
真实性:评测集要能真实的反应业务实际需求,与实际发生的业务场景一致。例如评测问题应该尽量覆盖用户平时会问的问题,保持用户平时对问题的表述风格。
多样性:评测集要能够覆盖不同的业务内容,包括:不同的用户输入类型、期待的输出类型、以及答案生成的逻辑等。
等比例:评测集各种类型数据的分布比例应与实际业务场景接近,如果已有线上数据的可以根据线上数据抽样。
难度区分:生成式模型模拟人脑的思路来推断答案,题目的难度是一个非常重要的维度。业务人员往往很难系统的梳理这些难度,所以我们的算法同学需要主动的引导,构造出覆盖不同难度问题的评测集。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-07-18
2024-05-05
2024-07-09
2024-07-09
2024-05-19
2024-06-20
2024-07-07
2024-07-07
2024-07-08
2024-07-09
2024-11-06
2024-11-06
2024-11-05
2024-11-04
2024-10-27
2024-10-25
2024-10-21
2024-10-21