我要投稿

【LLM】使用大模型撰写类似维基百科的文章

发布日期：2024-04-21 08:34:41 浏览次数： 2925

作者：AI帝国

微信搜一搜，关注“AI帝国”

一、结论写在前面

论文提出了STORM，这是一个基于LLM的写作系统，可以自动化写作前准备阶段，从头开始创建类似维基百科的文章。论文策划了FreshWiki数据集，并建立了评估标准来研究生成有根据的长篇文章。

实验结果表明，STORM中的问题提出机制可以提高大纲和文章质量。通过改善广度和深度，STORM在专家评估中揭示了面向有根据写作系统的新挑战。论文研究中的经验丰富的维基百科编辑一致认为STORM对于写作前准备阶段是有帮助的。

尽管论文的方法在自动和人工评估中都明显优于基线方法，但机器撰写文章的质量仍然落后于经过精心修订的人工撰写文章，尤其是在中立性和可验证性方面。尽管STORM在研究给定主题时发现了不同的视角，但收集的信息仍可能存在偏向互联网主导来源的偏差，并可能包含宣传性内容。

二、论文的简单介绍

2.1 论文背景

目前尚不清楚如何利用LLMs来编写有深度的、长篇的文章，例如完整的维基百科页面。这种解说性写作试图以有组织的方式向读者传达关于一个主题的信息，在实际写作过程开始之前，需要在写作前阶段进行彻底的研究和规划。然而，先前关于生成维基百科文章的研究通常忽略了写作前阶段。这些假设通常不成立，因为收集参考文献和制定大纲需要高级信息素养技能来识别、评估和组织外部来源，这是即使对于经验丰富的作者而言也是一项具有挑战性的任务。自动化这个过程可以帮助个体深入学习一个主题，并极大地减少其解说性写作所需的昂贵专家工时。

论文通过专注于如何从零开始生成类似维基百科的文章来探讨这些挑战。论文将这个问题分解为两个任务。第一个任务是进行研究以生成大纲，即多层次部分的列表，并收集一组参考文献。第二个任务利用大纲和参考文献来生成全长文章。这样的任务分解反映了人类写作过程，通常包括写作前、草稿和修订阶段

2.2 论文方案

为了赋予LLMs更好地进行研究的能力，论文提出了STORM范式，通过检索和多角度提问综合主题大纲。

STORM的设计基于两个假设:(1)不同的视角会导致提出不同的问题;(2)制定深入的问题需要迭代研究。基于这些假设，STORM采用了一种新颖的多阶段方法。它首先通过检索和分析相似主题的维基百科文章来发现不同的视角，然后为LLM赋予特定视角进行提问(图1(B))。接下来，为了引出用于迭代研究的后续问题(图1(C))，STORM模拟了一个多轮对话，其中提出的问题的答案是基于互联网。最后，根据LLM的内部知识和收集的信息，STORM创建了一个大纲，可以根据每个部分来扩展，从而开发出类似维基百科的全长文章。

2.2.1 Fresh Wiki

论文研究从头开始生成类似维基百科的文章，重点关注写作前的准备阶段，其中涉及到需要收集和整理相关信息("研究")的艰巨子任务。这模拟了人类的写作方法，促使一些教育工作者将撰写维基百科文章视为学术培训的教育练习。

表1将论文的工作与之前用于维基百科生成的基准进行了比较。现有工作通常侧重于评估生成较短片段(例如一个段落)、较窄范围(例如特定领域或两个领域)或在提供明确的大纲或参考文档的情况下进行评估。一个值得注意的例子是WikiSum，将生成维基百科文章视为一个基于参考文档的多文档摘要问题。

论文的设置强调有根据的长篇写作系统研究和策划内容的能力。

创建一篇新的类似维基百科的文章不仅需要流畅的写作能力，还需要良好的研究技能。由于现代LLM通常是在维基百科文本上训练的，论文通过明确寻找最近创建(或经过大量编辑)的维基百科文章来减轻数据泄露问题，这些文章是在论文测试的LLM的训练截止日期之后创建的。当新的LLM出现时，论文可以在将来的日期重复这一过程。

2.2.2 方法

论文提出了STORM系统，通过有效的提问研究给定主题并创建大纲，从而自动执行写作前准备阶段。然后，该大纲将基于收集的参考文献扩展为全长文章。图2给出了STORM的概览，论文在附录B中包含了伪代码。

2.2.2.1 基于视角的提问

Rohman将写作前准备阶段定义为写作过程中的发现阶段。与商业中的利益相关者理论相呼应，不同的利益相关者会优先考虑公司的不同方面，拥有不同视角的个人在研究同一个主题时可能会集中在不同的方面，从而发现多方面的信息。此外，特定的视角可以作为先验知识，指导个人提出更加深入的问题。

给定输入主题t，STORM通过调查现有的相似主题文章来发现不同的视角，并使用这些视角来控制提问过程。具体来说，STORM会提示LLM生成一系列相关主题，随后从这些主题的相应维基百科文章(如果可以通过维基百科API获得的话)中提取目录。这些目录被连接起来创建一个上下文，以提示LLM识别出N个视角，它们可以共同为主题t贡献一篇全面的文章(图2 )。

2.2.2.2 模拟对话

问题和提问理论强调，虽然现有问题的答案有助于更全面地了解一个主题，但它们通常也会同时引发新的问题。为了启动这个动态过程，STORM模拟了一个维基百科作者与主题专家之间的对话。对话历史使LLM能够更新对主题的理解并提出后续问题。在实践中，论文将对话限制在最多M轮。

2.2.2.3 创建文章大纲

通过N+1次模拟对话彻底研究了主题之后，STORM在实际写作开始之前创建一个大纲。为了充分利用LLM的内部知识，论文首先提示模型仅根据主题t生成一个草稿大纲OD(图2 7 )。OD通常提供了一个通用但有条理的框架。随后，LLM根据主题、草稿大纲和模拟对话被提示来完善大纲(图2)。这产生了一个改进的大纲，将用于生成全长文章。

2.2.2.4 撰写全长文章

在写作前准备阶段收集参考文献R并制定大纲O的基础上，可以分部分组织全长文章。由于通常无法在LLM的上下文窗口中容纳整个R，论文使用章节标题及其所有级别的子章节标题，基于与Sentence-BERT嵌入的语义相似性来从R中检索相关文档。有了相关信息，LLM就会被提示生成带有引用的部分。一旦所有部分都生成完毕，它们就会被连接形成全长文章。由于各部分是并行生成的，论文会提示LLM使用连接后的文章删除重复信息，以提高连贯性。此外，为了与维基百科的写作风格保持一致，LLM还被用于综合整个文章的摘要，形成开头的导言部分。

2.3 论文效果

论文使用论文策划的Fresh Wiki数据集评估STORM，该数据集收录了近期的高质量维基百科文章，以避免在预训练期间出现数据泄露。为了促进对写作前准备阶段的研究，论文定义了与人工撰写的文章相比较评估大纲质量的指标。论文还邀请了一群经验丰富的维基百科编辑进行专家评估。编辑们发现，与基于大纲驱动的检索增强基线相比，STORM在文章的广度和组织性方面表现更佳。

他们还确定了未来研究需要解决的挑战，包括以下情况：(1)互联网上的偏差影响了生成的文章;(2) LLM捏造了无关事实之间的联系。这些挑战为有根据的写作系统开辟了新的前沿。

2.3.1 实验

2.3.1.1.1 文章选择

STORM能够研究复杂的主题，并根据详细的大纲撰写长文章。然而，在这个受控实验中，论文将最终输出限制在4000个tokens(大约3000个词)以内。为了进行有意义的比较，论文从FreshWiki数据集中随机选择了100个样本，其人工撰写的文章不超过3000个词。

2.3.1.2 自动指标

论文通过计算标题软回忆和标题实体回忆来评估大纲质量，从而评估写作前准备阶段。较高的回忆分数表示相对于人工撰写的文章，大纲更全面。为了评估全长文章质量，论文采用ROUGE分数(Lin，2004)，并根据FLAIR NER结果计算文章级别的实体回忆。此外，根据维基百科标准，论文从以下五个方面评估文章：(1)有趣程度，(2)连贯性和组织性，(3)相关性和重点，(4)覆盖面，(5)可验证性。

对于(1)-(4)方面，论文使用Prometheus，这是一个13B的评估器LLM，根据与两位经验丰富的维基百科编辑共同制定的5分制量规(见附录C.2)为文章打分。对于可验证性，论文根据计算引用回忆率和引用精确率。论文使用Mistral 7BInstruct检查引用的段落是否能够蕴含生成的句子。

2.3.1.3 基线模型

由于之前的工作使用了不同的设置，并且没有使用LLM，因此很难直接进行比较。相反，论文使用了以下三个基于LLM的基线模型:

1.Direct Gen，一个直接提示LLM生成大纲的基线，然后使用该大纲生成全长文章。

2.RAG，一个检索增强生成基线，用主题进行搜索，并使用搜索结果和主题t生成大纲或整篇文章。

3.Outline-driven RAG (oRAG)，在创建大纲时与RAG相同，但进一步使用章节标题搜索额外信息，逐节生成文章。

2.3.1.4 STORM实现

论文使用DSPy框架通过zero-shot提示构建了STORM。附录B包含了伪代码和相应的提示。STORM中的超参数N和M都设置为5。论文使用chat模型gpt-3.5-turbo进行提问，使用gpt-3.5-turbo-instruct进行STORM的其他部分。论文还尝试使用gpt-4来起草和完善大纲(图2 )。对于报告的结果，STORM中模拟的主题专家是基于You.com搜索API，尽管该流程也兼容其他搜索引擎。地面真值维基百科文章被排除在搜索结果之外。对于最终文章生成，论文只报告使用gpt-4的结果，因为在生成带有引用的文本时，gpt-3.5缺乏对来源的忠实性。论文将temperature设置为1.0，top_p设置为0.9，用于所有实验。

2.3.2 结果和分析

2.3.2.1 主要结果

论文使用大纲覆盖率作为评估写作前准备阶段的agent)。表3显示了标题软回忆和实体回忆。直接由LLM生成的大纲(Direct Gen)已经展现出较高的标题软回忆，说明LLM能够通过丰富的参数知识掌握主题的高层次方面。然而，通过提出有效的问题来研究主题，STORM能够创建具有更高回忆率的大纲，涵盖更多特定主题的方面。

值得注意的是，尽管RAG利用了额外信息，但在上下文窗口中呈现无组织的信息会使大纲生成对较弱的模型(即GPT-3.5)更具挑战性，从而导致性能下降。实验结果表明，即使进行额外的搜索和完善回合可以提高RAG生成的大纲质量，论文提出的STORM仍能超越其性能。

论文进一步评估了全长文章的质量。如表2所示，oRAG明显优于RAG，突出了使用大纲对于全长文章生成的结构化效果。器LLM可能会过高评价机器生成的文本。论文谨慎的人工评估(§6)揭示了STORM仍有很大的改进空间。

2.3.2.2 消融研究

STORM通过发现特定视角和模拟多轮对话来提示LLM提出有效的问题。论文对大纲创建进行了消融研究，将STORM与两个变体进行比较：(1)"STORM w/o Perspective"，在问题生成提示中省略了视角；(2)"STORM w/o Conversation"，提示LLM一次性生成一组固定数量的问题。为确保公平比较，论文控制所有变体生成的总问题数相等。表3显示了消融结果，完整的STORM流程产生的大纲回忆率最高。此外，"STORM w/o Conversation"的结果远差于其他，表明阅读相关信息对于生成有效问题至关重要。

论文进一步检查通过不同变体在R中收集了多少独特的来源。如表5所示，完整流程发现了更多不同的来源，这一趋势与大纲质量的自动指标一致。论文还验证了STORM是否需要大纲阶段。在表2中，"STORM w/o Outline Stage"表示仅给定主题和模拟对话就生成整篇文章的结果。移除大纲阶段显著降低了所有指标的性能。

2.3.3 人工评估

为了更好地理解STORM的优势和缺陷，论文与10位经验丰富的维基百科编辑合作进行了人工评估，他们在维基百科上至少有500次编辑，并拥有超过1年的经验。论文从数据集中随机抽取20个主题，评估论文方法和oRAG(根据自动评估是最佳基线)生成的文章。每一对文章被分配给2位编辑。

论文要求编辑从五个方面对每篇文章打分，但使用1到7的量表进行更细致的评估。虽然论文的自动评估使用引用质量作为评估"可验证性"的agent，但在人工评估中，论文坚持维基百科标准的"可以得到验证，没有原创研究"。除了对文章打分外，编辑还被要求提供开放式反馈和成对偏好。评估结束后，他们还被要求将论文方法生成的文章(他们刚刚评审过)与人工撰写的对应文章进行比较，并使用1-5的Likert量表报告他们对STORM感知的有用性。更多人工评估细节请见附录D。表6展示了评分和成对比较结果。

STORM生成的文章表现出比oRAG输出更广阔和深入的内容：编辑认为STORM生成的文章比oRAG输出更有趣、组织性更好，覆盖面更广。具体来说，25%更多由STORM生成的文章被认为组织有序(组织性评分≥4)，10%更多被认为覆盖面良好(覆盖面评分≥4)。甚至与人工撰写的文章相比，一位编辑称赞论文的结果"提供了更多背景信息"，另一位编辑指出"我发现AI文章比维基百科文章更有深度"。STORM在成对比较中也优于最佳基线。

生成的文章无法达到人工修订作品的水平：虽然STORM优于oRAG基线，但编辑们评论称生成的文章比实际的维基百科页面信息量要少。另一个被识别出的主要问题是互联网来源中的偏差和语气转移到了生成的文章中，10位编辑中有7位提到STORM生成的文章听起来"情绪化"或"不中立"。更多分析见附录E。这一反馈表明，在写作前准备阶段减少检索偏差是一个值得未来工作探索的方向。

生成的文章是一个良好的起点：如图3所示，编辑们一致认为STORM可以帮助他们完成写作前准备阶段。令人欣慰的是，这个工具对经验丰富的编辑来说是有帮助的。80%的编辑认为STORM可以帮助他们为一个新主题编写维基百科文章。对于STORM对整个维基百科社区的用处，编辑们表达了更多保留意见;尽管如此，70%的编辑认为它是有用的，只有10%持反对意见。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业