微信扫码
与创始人交个朋友
我要投稿
实验结果表明,STORM中的问题提出机制可以提高大纲和文章质量。通过改善广度和深度,STORM在专家评估中揭示了面向有根据写作系统的新挑战。论文研究中的经验丰富的维基百科编辑一致认为STORM对于写作前准备阶段是有帮助的。
尽管论文的方法在自动和人工评估中都明显优于基线方法,但机器撰写文章的质量仍然落后于经过精心修订的人工撰写文章,尤其是在中立性和可验证性方面。尽管STORM在研究给定主题时发现了不同的视角,但收集的信息仍可能存在偏向互联网主导来源的偏差,并可能包含宣传性内容。
论文通过专注于如何从零开始生成类似维基百科的文章来探讨这些挑战。论文将这个问题分解为两个任务。第一个任务是进行研究以生成大纲,即多层次部分的列表,并收集一组参考文献。第二个任务利用大纲和参考文献来生成全长文章。这样的任务分解反映了人类写作过程,通常包括写作前、草稿和修订阶段
STORM的设计基于两个假设:(1)不同的视角会导致提出不同的问题;(2)制定深入的问题需要迭代研究。基于这些假设,STORM采用了一种新颖的多阶段方法。它首先通过检索和分析相似主题的维基百科文章来发现不同的视角,然后为LLM赋予特定视角进行提问(图1(B))。接下来,为了引出用于迭代研究的后续问题(图1(C)),STORM模拟了一个多轮对话,其中提出的问题的答案是基于互联网。最后,根据LLM的内部知识和收集的信息,STORM创建了一个大纲,可以根据每个部分来扩展,从而开发出类似维基百科的全长文章。
表1将论文的工作与之前用于维基百科生成的基准进行了比较。现有工作通常侧重于评估生成较短片段(例如一个段落)、较窄范围(例如特定领域或两个领域)或在提供明确的大纲或参考文档的情况下进行评估。一个值得注意的例子是WikiSum,将生成维基百科文章视为一个基于参考文档的多文档摘要问题。
论文的设置强调有根据的长篇写作系统研究和策划内容的能力。
创建一篇新的类似维基百科的文章不仅需要流畅的写作能力,还需要良好的研究技能。由于现代LLM通常是在维基百科文本上训练的,论文通过明确寻找最近创建(或经过大量编辑)的维基百科文章来减轻数据泄露问题,这些文章是在论文测试的LLM的训练截止日期之后创建的。当新的LLM出现时,论文可以在将来的日期重复这一过程。
给定输入主题t,STORM通过调查现有的相似主题文章来发现不同的视角,并使用这些视角来控制提问过程。具体来说,STORM会提示LLM生成一系列相关主题,随后从这些主题的相应维基百科文章(如果可以通过维基百科API获得的话)中提取目录。这些目录被连接起来创建一个上下文,以提示LLM识别出N个视角,它们可以共同为主题t贡献一篇全面的文章(图2 )。
他们还确定了未来研究需要解决的挑战,包括以下情况:(1)互联网上的偏差影响了生成的文章;(2) LLM捏造了无关事实之间的联系。这些挑战为有根据的写作系统开辟了新的前沿。
对于(1)-(4)方面,论文使用Prometheus,这是一个13B的评估器LLM,根据与两位经验丰富的维基百科编辑共同制定的5分制量规(见附录C.2)为文章打分。对于可验证性,论文根据计算引用回忆率和引用精确率。论文使用Mistral 7BInstruct检查引用的段落是否能够蕴含生成的句子。
1.Direct Gen,一个直接提示LLM生成大纲的基线,然后使用该大纲生成全长文章。
2.RAG,一个检索增强生成基线,用主题进行搜索,并使用搜索结果和主题t生成大纲或整篇文章。
3.Outline-driven RAG (oRAG),在创建大纲时与RAG相同,但进一步使用章节标题搜索额外信息,逐节生成文章。
值得注意的是,尽管RAG利用了额外信息,但在上下文窗口中呈现无组织的信息会使大纲生成对较弱的模型(即GPT-3.5)更具挑战性,从而导致性能下降。实验结果表明,即使进行额外的搜索和完善回合可以提高RAG生成的大纲质量,论文提出的STORM仍能超越其性能。
论文进一步评估了全长文章的质量。如表2所示,oRAG明显优于RAG,突出了使用大纲对于全长文章生成的结构化效果。器LLM可能会过高评价机器生成的文本。论文谨慎的人工评估(§6)揭示了STORM仍有很大的改进空间。
论文进一步检查通过不同变体在R中收集了多少独特的来源。如表5所示,完整流程发现了更多不同的来源,这一趋势与大纲质量的自动指标一致。论文还验证了STORM是否需要大纲阶段。在表2中,"STORM w/o Outline Stage"表示仅给定主题和模拟对话就生成整篇文章的结果。移除大纲阶段显著降低了所有指标的性能。
论文要求编辑从五个方面对每篇文章打分,但使用1到7的量表进行更细致的评估。虽然论文的自动评估使用引用质量作为评估"可验证性"的agent,但在人工评估中,论文坚持维基百科标准的"可以得到验证,没有原创研究"。除了对文章打分外,编辑还被要求提供开放式反馈和成对偏好。评估结束后,他们还被要求将论文方法生成的文章(他们刚刚评审过)与人工撰写的对应文章进行比较,并使用1-5的Likert量表报告他们对STORM感知的有用性。更多人工评估细节请见附录D。表6展示了评分和成对比较结果。
STORM生成的文章表现出比oRAG输出更广阔和深入的内容:编辑认为STORM生成的文章比oRAG输出更有趣、组织性更好,覆盖面更广。具体来说,25%更多由STORM生成的文章被认为组织有序(组织性评分≥4),10%更多被认为覆盖面良好(覆盖面评分≥4)。甚至与人工撰写的文章相比,一位编辑称赞论文的结果"提供了更多背景信息",另一位编辑指出"我发现AI文章比维基百科文章更有深度"。STORM在成对比较中也优于最佳基线。
生成的文章无法达到人工修订作品的水平:虽然STORM优于oRAG基线,但编辑们评论称生成的文章比实际的维基百科页面信息量要少。另一个被识别出的主要问题是互联网来源中的偏差和语气转移到了生成的文章中,10位编辑中有7位提到STORM生成的文章听起来"情绪化"或"不中立"。更多分析见附录E。这一反馈表明,在写作前准备阶段减少检索偏差是一个值得未来工作探索的方向。
生成的文章是一个良好的起点:如图3所示,编辑们一致认为STORM可以帮助他们完成写作前准备阶段。令人欣慰的是,这个工具对经验丰富的编辑来说是有帮助的。80%的编辑认为STORM可以帮助他们为一个新主题编写维基百科文章。对于STORM对整个维基百科社区的用处,编辑们表达了更多保留意见;尽管如此,70%的编辑认为它是有用的,只有10%持反对意见。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-14
2024-04-26
2024-03-30
2024-04-12
2024-05-10
2024-07-18
2024-05-22
2024-05-28
2024-04-25
2024-04-26
2024-11-14
2024-11-13
2024-11-13
2024-11-13
2024-11-12
2024-11-11
2024-11-08
2024-11-07