AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


北航沙磊教授:当Agentic RAG照进现实|Agent Insights
发布日期:2024-09-10 07:07:58 浏览次数: 1591


WWDC 24 发布会上,苹果带来了全新的系统,除此之外,Apple Intelligence 作为压轴戏也终于上演,让我们看见了 AI 如何融入我们的日常生活。绿洲邀请到了一位在 NLP 领域有着学术背景和产业双重背景的专家——沙磊教授,他曾经也在美国湾区苹果公司 Siri 组工作。沙教授将在本期为我们介绍他的最新研究项目 ATM(Adversarial Tuning Multi-agent System),顺便聊聊他对苹果 AI 未来发展的看法,以及 ATM 技术如何利用类似于 GAN 网络的对抗型 Agent 提升 RAG 检索生成能力。Enjoy

ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator》

ATM Attacker Agent - Generator Agent 架构

论文链接https://arxiv.org/abs/2405.18111

解决问题RAG 利用语义相关文档作为生成器的输入上下文,并重新注入外部知识,但是当今互联网充斥着大量错误、无关、无用内容,甚至是 LLM 捏造的虚假知识,会给 RAG 生成器带来额外噪音,团队设计多 Agent 对抗防御系统(ATM),通过对抗引导生成器更好地了解特定文档是否有助于回答问题,增强生成器鲁棒性,最终能在 LLM 捏造文档中分辨出有用的文档

模型框架ATM 包括生成器 Agent 和攻击者 Agent,攻击者竭力编造虚假知识并增加文件列表中的噪音,生成者抵御噪音并保持稳健,团队进行多 Agent 迭代优化,使攻击者 Agent 展现出更强大的攻击模式,生成器 Agent 迭代增强

使用效果:ATM 在自然问题上的分数提高 31%。在 ATM 架构下,Generator 生成器逐步超越了以前最先进的 RALM、RetRobust 和 Self-RAG,在各数据集上的性能领先 5%

应用空间:各个领域的 RAG 系统,另外还可以加强模型安全性、准确率等指标

ATM 测试性能

绿洲:能否帮我们简单介绍一下您过去的研究经历?
沙教授:我过去在北大读博,研究自然语言处理方向,做过大规模信息抽取以及文本生成。后来我在美国湾区苹果公司工作,在苹果 Siri 组,接触了很多对话系统方面的工作,我当时认为要把对话系统做好,需要让模型真正理解自然语言,因此我觉得应该往可解释语言模型方面发展。之后我去了牛津大学做了博后,做解释 AI 方向的工作。2022 年初回国,机缘巧合到北航做了一次分享,后来加入北航持续做自然语言处理以及可解释性方向的研究,还包括现在大模型安全和幻觉消除,以及接触到 AI for Science 相关的方向。


我觉得今天产业界天生是比较适合 Agent 架构的,从苹果对话系统开发经验来看,学术界喜欢发端到端的论文,然而在产业界要实现端到端非常困难。比如之前没有大模型的时代,其实很难去通过对话直接实现搜索、调用、生成,比如设置闹钟、打电话、发短信、找资料,不同用户实际要求太多且太杂,一个模型不可能把所有事情完成。因此过去产业界就倾向于用多 Agent 合作的方式来完成各种任务。


在大模型时代也是一样的,首先要把对话做好,需要让模型充分深刻地理解语言,非常浅地把对话系统搭好后输出的效果很容易是人工智障。大模型出现之后,本质上模型对于语言的理解能力是有质的提升的。大模型相当于智能中枢,同时也是 Multi-Agent 中的主 Agent,对语言理解得很到位,且会调用其他 Agent 的功能。


绿洲:您对于 WWDC 24 里要更新的 AI 功能与性能有什么样的期待?


沙教授:我觉得 WWDC 上展示的功能到真正推出的时候,都能够差不多实现,例如让它用不同情绪发邮件,调用邮件信息,设定日程等。苹果肯定是希望 Siri 跟大部分系统内部应用打通的,当时我在苹果的时候就在做类似的事情,某个团队负责某些应用与 Siri 之间的互联互通工作,现在大模型出来之后更加可能实现。


绿洲:能否帮我们解释一下设计 ATM 的初衷?


沙教授:最开始我们想做检索增强相关的工作,大模型本身垂类的的信息学得不是很到位,时常会出现幻觉,RAG(Retrieval-Augmented Generation) 能够帮助大模型查阅相关的资料,对应特定的问题回答能够更准确。RAG 本身也分为检索、增强、生成三个部分,检索部分本身和大模型没太多关系,主要依赖检索器的性能。增强是有一定提升空间的,比如一下子检索出好几篇文档,文档的顺序如何排列(正序还是倒序,有规律排列还是无规则打乱),大模型得到的结果都不一样。人读完十篇参考文献,不管以什么顺序看,最后得出结论应该都差不多,但不同排列组合的检索信息喂给大模型会造成完全不同的生成结果。


因此团队就在思考能不能有专门的一个 Agent,不断地给大模型出难题挑战大模型,让它的稳健能力得以提升。于是我们跑出了 ATM 的方案,利用类似于 GAN 的思想,用一个 Attacker 和一个 Generator 进行对抗从而迭代生成质量,能够不断地优化 RAG 的承载能力。后来我们也和百度合作,将整篇对抗生成的理念进行更实质的落地


绿洲:能否帮我们解释一下攻击者 Agent 以及生成者 Agent 的对抗博弈方式?


沙教授:其中攻击器负责检索出来之后,通过对内容的扰动,包括位置、顺序、细节内容的干扰等,随后输入到生成器中。攻击器不断地进行干扰期望把模型生成质量分数拉低,而生成器需要不停地无视误导,将正确的答案生成出来,过程中就是博弈的过程。整体与 GAN 网络类似,但有一定的区别,GAN 整体的对抗能够用 Loss Function(损失函数)进行连续优化的方式找到最佳答案,而我们的 ATM 对抗博弈方式更多是利用 DPO 去做一些主观的离散的优化,可以算是对齐的一部分,利用强化学习的方式来对比得到相对更好的生成答案。


绿洲:您觉得 ATM 未来能够在哪些应用空间更好地应用?


沙教授:ATM 可以应用在很多地方,比如提升大模型安全性方面,目前已经有可能会有不法分子利用大模型来制定带有攻击性的袭击,而 ATM 能够尽可能筛选不安全的生成回复,另外例如歧视、政治问题都是 ATM 可能修正的问题。只要我们发现有不安全的内容,我们就给攻击 Agent 加上标签,让它去微调一下,过去调整模型很可能比较局限,不安全信息屏蔽得不全面,但大模型 Agent 能够随时调整,实时加入新的案例施加攻击,让生成 Agent 进行理解并提升自己的防御能力,最终在人类想要保护的信息领域都能够达到不错的效果。


绿洲:您研究下一步准备做什么?


沙教授:首先 ATM 还是一个比较消耗算力的方案,怎么样减少其资源使用量是我们在思考的问题。其次 RAG 本身也有很多可以增强的点,例如检索本身有很多工程化提升空间,例如检索不到很有用的内容,或检索出来的信息颗粒度不高,内容不够全面,篇幅不够长……都是我们期待提升的空间。


另外大模型底层能力也是我们一直在关注的点,大模型本身目前是小学生水平,那我们很难去查一些资料让它回答大学生水平的问题,我们在用 7B 模型做测试,这和 175B 规模的模型能力也是差很多的,如何在垂类小模型之上更好地做调优也是我们在考虑的方向。
绿洲:您团队还关注 AI 的其他哪些领域?


沙教授:大模型安全是我主要关注的方向,另外数据增强、检索增强也是我关注的一个点。AI for Science 领域我更关注医疗、生物、化学等严肃领域,我们可以把大模型看作一个吞掉很多知识并会融会贯通使用的载体,在医学这种海量数据的领域里,大模型对知识的理解和挖掘有先天的优势,你可以让它做特征的提取,简单的理解和分析。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询