我要投稿

知识没有推理就一无是处：如何通过自我推理释放大模型全部潜力

发布日期：2024-09-30 08:23:42 浏览次数： 2006

作者：颠覆式创新

微信搜一搜，关注“颠覆式创新”

导言

对于GenAI，为了得到好的结果，就需要将数据加工为信息，再将信息加工为有关系的知识，但是：知识如果没有推理，就不能产生价值，本文介绍如何在知识的基础上，使用大模型的自我验证和归因推理，来提升大模型结果的准确性。

通过阅读本文，你能够了解：

如何构建知识，以及使用大模型的自我验证和归因推理，来提升大模型结果的准确性
下载原始论文

关注公众号，复制"大模型推理"并后台发送，获取原始论文

模型的可靠性和可追溯性

大型语言模型（LLMs）表现出了非凡的能力，但存在幻觉、缺乏领域适应性和缺乏持续学习等问题。

当它们需要处理知识密集型任务时，这些问题更加突出。这些问题的解决方案之一（或至少部分解决方案）是在LLM的上下文中提供相关信息（插入提示）。

这个系统通常是检索增强生成（RAG）。已经证明这个系统能够减少幻觉并改善响应。

AI幻觉：记忆是否是答案？

RAG已死 VS 长命RAG

然而，可靠性和可追溯性仍然存在局限性。事实上，上下文幻觉仍然可能出现，有时找不到正确的上下文。

如果上下文噪音较多，LLM的生成可能会受到影响。

事实上，无关信息的存在可能会混淆LLM及其提取生成所需的相关信息的能力。

其次，LLMs在生成过程中不包括使用了哪些来源，这使得验证使用了哪些来源变得更加复杂。

在预训练阶段，LLM专注于获取知识。

毕竟，模型是以自回归的方式进行训练，目的是预测序列中的下一个词。因此，LLM并不是专门为推理而训练的，但这在训练过程中会出现（其实我们可以称之为训练的副作用和上下文学习）。

尽管我们没有为推理而训练它，但当我们使用RAG时，我们对其解释上下文的能力以及利用这些信息进行响应很感兴趣（因此我们对预训练期间获得的知识不太感兴趣）。

然后，我们可以考虑如何调整模型的能力，以进行关于找到的上下文的推理，并学习如何提取信息。在某种意义上，进行额外的后训练步骤，以便专注于我们系统中感兴趣的能力。

如何使模型能够推理上下文？

用自我推理改进检索增强语言模型

细节也可以参见：Self-RAG: 自校验，自检索高级RAG 实施和实际应用介绍

简而言之，这个过程包括三个步骤：

关联感知过程（RAP），在这个过程中，模型被指示评估文档与应用程序的相关性。
证据感知选择过程（EAP），在这个过程中，模型选择并引用相关文档。
轨迹分析过程（TAP），在这个过程中，模型基于前两个步骤发生的事情生成简明的分析，然后产生答案。

作者从具有LLM和检索器的经典RAG模型开始。

最初的直觉是，一个人有能力判断一份文档是否与问题相关

因此，他们决定指示LLM判断找到的文档与用户查询的相关性。

模型被指示指定为什么它认为这些文档与查询相关。这一步的输出应该包括它是否相关以及为什么它相关。

同时，如果检索器找不到相关文档，LLM应该使用其参数化记忆（即训练期间获得的知识）来回答查询，当然在很多场景，找不到相关文档，也可以直接返回根据当前知识无法回答该问题。

为了回答问题，人类识别关键句子（也许用标记器标记它们），然后用它们来回答。

在写文章或撰写论文时，标明使用了哪些文档是一个好的做法。LLM在这个过程中会遇到困难。

因此，作者强迫LLM识别支持问题答案的句子（作者称之为证据）。

然后，作者指示模型选择对答案重要的句子，并提供为什么这些句子重要。

这个阶段的预期输出是一个包含应该引用的句子以及为什么它们重要的列表。

相当于一方面让模型来判断相关文档，同时还需要让模型给出为什么需要该文档，以此来增加该内容的置信度。

在最后一步，LLM从前面的步骤中受益，并最终生成响应。模型分析了这个过程中进行的推理，然后产生了分析和响应。最终的输出是分析和响应。

显然，在这一点上，我们需要数据，作者生成了10,000个高质量的例子。这对于推理训练尤为重要。

然后，他们建立了一个包含自我推理轨迹的语料库（这些轨迹是在每个步骤产生的各种分析）。给定一个问题q和一个答案y，模型通过y、q和轨迹进行训练。

为了验证他们的方法是否有效，他们选择了两个短问题回答（QA）数据集和一个长QA数据集。

使用LLaMA2–7B、LLaMA2–13B和它们的指令调整版本作为模型。

之后，他们还使用其他提示工程方法作为基线，以查看他们的方法是否产生更好的结果。

在表中，我们可以看到：

结果表明，使用RAG显著提高了性能，相对于仅由LLM组成的系统。提示工程改进了这个基线，他们的方法给出了更好的结果。
对于长QA，该方法产生了非常好的结果，甚至在召回率上优于GPT-4（这是一件大事，因为这些模型相比之下非常小）。

进行消融研究，作者指出：

去除第一步会导致短形式QA的整体性能下降。这表明检查文档与查询的相关性有助于性能。特别是在事实验证数据集中，过滤掉无关文档非常重要。
去除第二步会带来显著的性能下降，表明识别关键判断对准确性很重要。
第三步对所有测试的数据集都是至关重要的，对性能产生了显著影响。

由于无关信息的存在会影响检索，作者测试了他们的噪声方法的稳健性。他们在两种情况下测试了他们的方法：

在检索后对文档进行随机洗牌。
用与数据集中不同问题相关的文档替换检索到的文档的一半。

该模型比其他噪声方法更稳健。特别是第一种情况对他们的方法影响很小。第二种情况更具挑战性，性能有所下降，但影响并不太大。

最后，彻底调查检验了模型是否真的支持引用。他们选择了人类评估员来检查模型是否在引用文档。他们询问人类评审员提交的文档是否支持答案中的句子。结果显示，该系统在呈现引用方面是有效的，并且与自动评估具有很好的相关性。

RAGs可以有效增强LLMs处理知识密集型任务的性能。尽管它们有效，但对于它们的可靠性和可追溯性仍然存在显著关注。为了解决这些限制，我们提出了一个新颖的SELFREASONING框架，通过使用LLM自身生成的推理轨迹来改善RALMs的性能。- 来源

所提出的方法很有趣，因为它既改善了系统响应的能力，又跟踪了LLM为什么以这种方式做出响应。其背后的想法是改善模型利用上下文和提取相关信息的能力。因此，作者使用特定的训练来使模型改善其能力。

这种方法很有趣，因为它是基于有效使用推理。它似乎很有前途，但尚未经过对需要多跳推理、代码生成或算术推理的更复杂问题的测试。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-11

让大模型更懂你，京东零售的算法工程师做了这些事

2025-07-11

Agent革命前夜，中国移动“九天”如何落地

2025-07-11

用了它之后，我明白了Manus的困境

2025-07-11

AI 将如何改变我们构建产品的途径

2025-07-11

如何利用企业架构构建可扩展的数据和人工智能战略

2025-07-11

如何让AI帮你做前端自动化测试？我们这样落地了

2025-07-11

从API视角解析MCP的演进历程

2025-07-11

苦活累活才是AI Agent的护城河

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

DeepSeek R1-0528 小版本升级

2025-05-29

分而治之：全面解析分布式分离 Inference 系统

2025-04-29

高效 Agents 构建指南

2025-05-23

Qwen3发布: 4B干掉旧代 72B / Windsurf又增加新的免费计划

2025-04-29

忽视小模型和知识库，企业AI应用必将是死路一条

2025-05-07

CAG 与 RAG：哪种方法能带来性能更好的人工智能

2025-05-07

从RAG到CoT再到MCP，一文读懂AI Agent落地难题｜大模型研究

2025-05-07

SpringAI Alibaba实战文生图、聊天记忆功能

2025-06-01

一文实测Gemini 2.5 Pro：视频驱动的代码生成，打造交互式开发应用新范式

2025-05-07

豆包，让有独立显卡的电脑都能部署本地大模型，语料库就是电脑里的文件

2025-04-17

大家都在问

从谨慎检查到一键接受，TRAE 如何成为我的主力 IDE？

2025-07-10

垂直赛道 Agent 闷声发财指南：如何实现一年超千万营收？

2025-07-10

你的大脑真的在被AI“腐蚀”吗？

2025-07-10

如何在 Elasticsearch 中构建你的智能 AI 助手？

2025-07-09

毕业季震撼演讲：当AI重塑一切，人类的价值何在？

2025-07-08

大模型落地及Agent记忆的有趣观点：兼看SVG生成用多模态大模型怎么做？

2025-07-07

微软裁员9000人！给员工整不会了：用不用AI都要被裁？

2025-07-05

智能体（Agent）是怎么知道什么时候要调用 Tool 的？

2025-07-04

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

知识没有推理就一无是处：如何通过自我推理释放 大模型全部潜力

知识没有推理就一无是处：如何通过自我推理释放大模型全部潜力