微信扫码
与创始人交个朋友
我要投稿
1. 动机
2. 亮点
3. 概念及模型
方法包含三个步骤:
(1)知识图谱构建,构建一个包含从自然语言文档D中提取的关键信息的知识图谱G;
(2)从知识图谱中检索事实,从与某个文档理解任务T相关的G个事实中检索;
(3)提示形成,其中包括将知识图谱事实合成为自由形式的文本,以及将这些事实与故事文本的一个片段和一些框架文本拼接形成提示P。
4. 实验
本文使用两种自动方法来评估增强提示的功效。给定语言模型 L、提示 p 和人工编写的补全 c,第一个评估方法是生成新的补全 ^ c =generate(L; p) 并测量 c 和 ^ c 之间的 BLEU 分数。该方法是目前故事完成度的典型评估方法,但它依赖于错误的假设,即c是“正确答案”,并且c和^c之间增加的n-gram重叠与生成质量相关。实际上,有许多不同的方法可以适当地完成任何给定的故事部分,并且大多数方法与 c 几乎没有 n 语法重叠。此外,^c 是由语言模型随机生成的,因此很难复制 BLEU 结果。为了克服 BLEU 评估的这些问题,本文引入了第二个故事完成度评估指标:困惑度(PPL)。给定与上面相同的 L、p 和 c,使用语言模型来测量给定 p 或 P P L = L( c j p) 的 c 的困惑度。
问答实验的结果见表 1,故事完成结果见表 2。对于问答,本文的提示构建系统在两个数据集和使用所有三种语言模型上都优于传统提示,并且结果具有统计显着性 (= 0.01 )在大多数情况下。LF-SQuAD 的平均文档长度比 LF-QUOREF 更长,这既说明了 LFQUOREF 具有更高的整体准确性,也说明了我们的系统相对于 LF-SQuAD 的基线具有更高的性能。这强调了通过语言模型回答长格式问题的难度,并验证了我们的系统在定义任务上的性能。
对于故事完成,我们的提示在所有三种语言模型的 PPL 指标上都优于传统提示,包括使用 GPT-2 和 XLNet 的显着改进。
5. 总结
在这项工作中,证明了包含文档特定信息的动态知识图可以增强大型语言模型的提示生成,从而减轻基于转换器的语言模型使用的有限上下文长度的限制。已经在两个故事理解任务(问答和文档完成)上评估了架构。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-04-11
2024-08-21
2024-07-09
2024-08-13
2024-07-18
2024-10-25
2024-07-01
2024-06-17