我要投稿

FactAgent 利用大语言模型和 Agent 自动化检测假新闻，无需模型训练，通过有序工作流程判定新闻声明真实性，效率显著提升，适应性高，可应用于不同领域新闻核查

发布日期：2024-05-10 20:38:31 浏览次数： 3341 作者：大语言模型论文跟踪

null

FactAgent：利用大语言模型 + Agent 自动化检测假新闻

发布时间：2024 年 04 月 30 日

Agent应用

Large Language Model Agent for Fake News Detection
在这个数字化飞速发展的时代，网络谣言的快速蔓延严重威胁着社会福祉、公众信任和民主进程，对关键决策和公众观点产生深远影响。为了应对这一挑战，自动假新闻检测技术的呼声愈发高涨。预训练的大型语言模型（LLMs）在自然语言处理（NLP）的多个领域展现出非凡的才能，这激发了人们探索其在新闻事实核查中的潜力。本文提出的 FactAgent，是一种创新的代理式方法，它利用 LLMs 进行假新闻的识别。FactAgent 模拟人类专家的核查行为，无需任何模型训练，通过一个有序的工作流程来验证新闻声明。该工作流程将复杂的新闻真实性检验分解为多个简单步骤，LLMs 利用其内置知识或外部工具来完成这些任务。在工作流程的最终阶段，LLMs 汇总整个过程中的所有信息，以判定新闻声明的真实性。相较于传统的人工核查，FactAgent 在效率上有着显著提升。实验研究证明了 FactAgent 在无需训练的情况下进行声明验证的有效性。此外，FactAgent 在工作流程的每一步以及最终决策阶段都提供了清晰的解释，为最终用户提供了假新闻检测推理过程的洞察。FactAgent 的高适应性允许直接更新其工具，以及根据领域知识更新工作流程本身，使其能够灵活应用于不同领域的新闻核查。
https://arxiv.org/abs/2405.01593

背景

在数字化时代，社交媒体和在线平台的普及加剧了假新闻的泛滥，这些假新闻以虚假或误导性信息的形式，伪装成可信的新闻报道。这种现象对社会福祉、公众信任和民主程序构成了严重威胁，可能引发恐慌、操纵公众意见，并影响关键决策。因此，及时检测假新闻，尤其是在其在社交网络上广泛传播前，变得至关重要。

尽管像 PolitiFact 和 Snopes 这样的事实核查网站聘请专业人员进行手动核查，但数字时代错误信息的快速传播使得手动核查既耗时又不切实际。因此，自动化解决方案变得必不可少，近年来，基于深度神经网络的事实核查模型应运而生。假新闻的识别是一个复杂的问题，需要评估新闻的真实性、作者意图和写作风格等多个方面。

目前已有多种方法应用于假新闻检测，比如通过知识图谱比较新闻文章的文本信息，或者分析假新闻与真实新闻在写作风格上的差异，以及考察新闻文章与出版商等实体之间的关系。此外，还可以利用新闻传播过程中的信息。现有的监督学习方法在识别虚假信息方面已经显示出一定的效果，但这些模型通常需要人工标注的数据进行训练，这在实践中可能难以获得或成本高昂。

现有的虚假新闻检测，主要存在基于内容和基于证据两大类方法。基于内容的方法侧重分析新闻文章的文本模式，如写作风格和立场，并可借助自然语言处理技术，例如长短期记忆网络（LSTM）和 BERT 模型。而基于证据的方法则通过比较观点与证据之间的语义相似性或冲突来核实新闻真实性，常从知识图谱或网站中提取证据。

大语言模型 Agent 应用在多种自然语言处理任务中表现出色，激发了其在假新闻检测中的潜力。专业人士在事实核查时，通常会从多个信息源中整合信息，形成连贯的叙述，这强调了在发布前验证细节的重要性。本篇论文提出了FactAgent，利用大语言模型 Agent 应用进行假新闻检测。FactAgent 的特点是将大语言模型应用整合到决策过程中，通过将复杂问题分解为结构化工作流程中的可管理子步骤，不仅利用内部知识，还结合外部工具来完成每个环节，共同解决整个任务。

尽管如此，现有方法大多需要标注数据来训练模型，这限制了它们处理训练数据之外知识的需求。我们提出的 FactAgent 通过结合 LLM 的语义理解和外部搜索引擎的证据检索，省去了模型训练的步骤。Zhang 等人提出的 HiSS 方法和我们的 FactAgent 都利用了 LLM，但 FactAgent 更进一步，以代理方式运作，使 LLM 严格遵循工作流程，在每个子步骤中收集证据，从而检查新闻声明的真实性。

FakeAgent 的架构

null

FactAgent 以一种大语言模型 Agent 的方式来模仿人类专家在虚假新闻检测中核查事实的行为。将事实核查工作细分为多个子步骤，并结合 LLM 的内部知识和外部工具，从多角度收集证据。

面对假新闻检测的复杂性，以及对写作风格、常识等现实世界情境的深入理解需求，结合 LLM 在文本理解上的强项和潜在的幻觉问题，将工具分为两类：

• 一类仅依赖 LLM 的内部知识（如短语、语言、常识、立场分析工具）

• 短语工具：
专注于分析新闻声明中可能存在的夸张预告、挑衅性语言或情绪化表述，基于假新闻倾向于使用这些策略吸引读者的假设。
• 语言工具：
旨在识别新闻声明中的语法或措辞错误，假设假新闻常犯此类错误以夸大其可信度。
• 常识工具：
利用 LLM 的内部知识评估新闻声明的合理性，寻找与常识相悖之处，基于假新闻可能更接近八卦的假设。
• 立场工具：
为政治相关新闻量身定制，用以检测新闻是否倾向于表达特定观点而非客观事实，假设假政治新闻可能强化读者的既有信念。

• 一类则结合外部信息（如 URL 和搜索工具）

• 搜索工具：
使用 SerpApi 搜索其他媒体资源中的冲突信息，假设假新闻常包含缺乏证据的未经证实信息，并通过外部知识库辅助 LLM 减少幻觉问题。
• URL 工具：
结合 LLM 的内外部知识，评估新闻声明是否源自不可信的域名 URL，利用内部知识初步了解域名，并借助外部知识数据库深化理解，基于假新闻多源自不可信域名的假设，且数据库会定期更新以保持信息的时效性和可靠性。

null

上图详解了假新闻检测的专家工作流程，其中“Standing_tool”以虚线框标出，第五要点涂灰，意味着若新闻不涉zz，则跳过此工具及其检查项。观察部分记录了各工具依次收集的观察结果。新闻信息包括标题、域名 URL 和发布日期，如‘标题：Riverdale 第二季前将重选主要角色，来源：tvline.com，发布日期：2017 年 4 月 25 日’。若域名 URL 和发布日期缺失，则仅依赖标题信息。

效果评估

在效果评估方面，作者主要验证了四个问题：

• RQ1：FactAgent 与其他类似工具相比，其表现如何？
• RQ2：领域知识的深度，如何塑造 FactAgent 在假新闻检测中的精准度？
• RQ3：外部搜索引擎的助力，对 FactAgent 的性能提升有何关键作用？
• RQ4：决策策略的巧妙运用，如何优化 FactAgent 的性能表现？

作者采用 Snopes、PolitiFact 和 GossipCop 三大英语数据集，对 FactAgent 在结构化专家工作流程中的表现进行评估。PolitiFact 与 GossipCop 之所以入选，是因为它们不仅提供新闻标题，还附带了每条新闻声明的来源 URL。从每个数据集中随机挑选 100 篇新闻文章进行评估，确保测试数据中真实新闻与假新闻的比例低于 1:2。

为了验证FactAgent的效果，作者将FactAgent与以下几种模型、方法进行对比：

• LSTM：采用 LSTM 对新闻声明中的文本信息进行编码。• TextCNN：利用 CNN 捕捉新闻声明的局部模式和表示。• BERT：实施转换器架构以捕捉上下文关系并理解新闻声明。• HiSS：引入分层提示方法，指导 LLMs 将声明分解为子声明，并通过问答步骤进行验证，利用搜索引擎获取外部信息。• Zero-shot 标准提示：仅使用包含任务描述和提供的新闻声明的提示。• Zero-shot CoT：应用 CoT 提示方法进行零-shot 推理。• Zero-shot（工具）：利用单独设计的工具，不包括 Standing_tool，因为并非所有新闻都涉及政治。

FactAgent 与其他类似工具相比，其表现如何？

null

上表汇总了不同模型的性能比较。遵循专家工作流程的FactAgent在所有数据集上的表现均优于其他基线模型。

FactAgent工具明确利用了大语言模型Agent应用的内部知识库和上下文理解能力，以评估假新闻声明中常见的措辞或语言风格的具体存在。FactAgent还利用了外部工具，扩展了大语言模型Agent应用的能力，超越了其他模型/工具所能达到的范围。

例如，FactAgent能够使大语言模型Agent应用在线搜索相关新闻声明并检测出矛盾的报道，借助外部资源来增强其真实性评估。此外，FactAgent还允许大语言模型Agent应用通过内部域名URL知识库和包含与已验证假新闻相关联的最近域名URL的外部数据库，来检查域名URL的可信度。这些功能使得FactAgent在不需要监督学习模型通常所需的模型训练和超参数调整过程的情况下，通过结构化的专家工作流程实现了更优的性能。

在比较使用不同提示技巧（如标准提示和CoT提示）的大语言模型Agent应用的性能，或基于每个设计工具的发现做出决策时，发现使用CoT提示的大语言模型并没有一致性地超越标准提示技巧。此外，与单独使用工具的大语言模型相比，具有专家工作流程的FactAgent的更优表现突出了从多个角度审视新闻声明的重要性。

我们的方法与HiSS不同，后者主要将LLM和外部搜索引擎作为提示技巧。与此相反，FactAgent将假新闻检测问题分解为简单任务，每个任务都依赖于大语言模型Agent来提供答案。

FactAgent之所以优于HiSS，归功于其对外部工具的严谨运用，这些工具被整合到结构化的专家工作流程中，以及对LLM内部常识的检验。与此相对，HiSS仅在大语言模型本身缺乏回答特定问题的信心时才依赖外部搜索引擎，这可能限制了其与FactAgent相比的分析范围和深度。

总体来看，FactAgent相较于基线模型的卓越性能展示了以Agent方式利用LLM的优势，模仿人类专家的行为，从多个角度严格审查新闻声明，并整合外部搜索流程，遵循专家工作流程来验证其真实性。

领域知识的深度，如何塑造 FactAgent 在假新闻检测中的精准度？

专家流程与自设计工作流程的对比

null

上图展示的Prompt是指导LLM 自动创建一个工作流程，利用现有工具来核实新闻。Agent逐步执行这些工具，收集与声明相关的证据，并在最后与清单项对比，以判断新闻的真实性，这一过程与图 1 所示的专家工作流程相似。

null

上图对比了 FactAgent 遵循专家工作流程与自动设计工作流程的性能。研究发现，让 FactAgent 的 LLM 自主设计假新闻检测工作流程，相较于遵循专家流程，在 GossipCop 数据集上表现较差。而 PolitiFact 数据集表现相当，Snopes 数据集则略胜一筹。

null

进一步分析（如上图）显示，LLM 在自设计工作流程时，更倾向于使用侧重新闻文本的工具，而忽略了如领域 URL 等其他重要因素。

这些发现强调了结合领域知识构建专家工作流程的重要性，以设计出更适合特定数据集领域的工具，而不是让 LLM 自动设计工作流程。这种方法确保了工作流程更贴合新闻领域的特征。FactAgent 的灵活性在于可以根据特定领域的需求，轻松添加、删除或修改工作流程中的工具，从而提高其在不同场景下的有效性和适用性。

外部搜索引擎的助力，对 FactAgent 的性能提升有何关键作用？

null

上表的数据表明，单纯依靠外部搜索来识别相互矛盾的报道并以此审查新闻声明，其效果并不理想，尤其是在处理GossipCop数据集时。这种情况可能是因为虽然在线搜索能够提供证据，但同一谣言或错误信息也可能在多个在线平台上被传播，这不仅没有帮助澄清事实，反而削弱了信息的可信度。

null

为了评估搜索工具的作用，我们将其从专家工作流程中移除，仅让大语言模型Agent应用（LLM Agent应用）依据其内部知识库来评估信息的真实性。上图显示，缺少了搜索工具，性能明显下降，这暗示了仅依靠LLM Agent应用的内部知识库来识别假新闻是不够充分的。

决策策略的巧妙运用，如何优化 FactAgent 的性能表现？

null

为了探究在最终验证阶段实施多数投票策略的效果，对大语言模型所采纳的所有工具决策进行了手动的多数投票处理。上图的数据显示，与指导大语言模型参照检查清单进行最终预测相比，多数投票在所有三个数据集上的表现均不尽人意。这一发现强调了大语言模型在FactAgent的最终步骤中，并不会单纯依赖多数投票，而是通过其自身的逻辑推理和深刻洞察来综合预测，这种方法可能比硬性规定如多数投票等决策规则更能带来更佳的决策结果。

结论

配备专家工作流程的FactAgent在性能上超越了传统的监督学习模型、标准提示方法、CoT提示技术以及单一维度的分析方法。FactAgent通过将外部搜索和LLM的常识知识紧密结合进工作流程，其表现也优于HiSS，后者同样利用LLM和外部搜索引擎进行事实核查。此外，效果测评证明了利用领域专家知识来设计FactAgent工作流程的重要性，并强调了调整工作流程和最终决策策略的灵活性。

相较于现有方法，FactAgent具有多重优势：

• 与需要标注数据训练和繁琐的超参数调整的监督学习模型相比，FactAgent无需任何训练或调整，大大提高了效率和易用性，省去了对大规模手动标注数据集的依赖。
• FactAgent的性能依托于设计工作流程时所使用的领域专家知识。
• 同时，FactAgent为工作流程的每一步都提供了明确的推理过程，增强了自然语言中事实核查过程的透明度。

局限性

尽管FactAgent目前主要依赖于新闻标题和可获取的领域URL，但考虑社交环境中的元素，如转推关系，可能对在新闻传播过程中识别假新闻至关重要。此外，通过分析网页设计元素，采用多模态方法也可能提升假新闻的识别能力。有些新闻标题可能并不直接反映新闻声明的真实性，因此，将新闻文章的全文内容纳入考量，评估标题是否真实反映内容或是否为吸引用户注意（如点击诱饵）而具有误导性，可能是有益的探索方向。最后，未来研究还可以探索整合专家决策策略，以进一步提升FactAgent的性能。

• 论文原文: https://arxiv.org/abs/2405.01593
• 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
• 加入社群，+v: iamxxn886

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业