微信扫码
与创始人交个朋友
我要投稿
「秘鲁的首都是哪里?」会得到一个答案;「利马是秘鲁的首都吗?」 会得到另一个。你可能会有点担心你朋友的智力,而且你几乎很难相信他们给出的任何答案。
这正是许多大型语言模型 (LLM) 正在发生的事,这些超强大的机器学习工具为 ChatGPT 和其他人工智能奇迹提供了动力。开放式的生成性问题会产生一个答案,而涉及必须在选项之间进行选择的判别性问题,通常会产生不同的答案。麻省理工学院的博士生 Athul Paul Jacob 表示:「当同一个问题的措辞不同时,就会出现脱节。」
为了使语言模型的答案更加一致,并使模型整体更加可靠,Jacob 和他的同事设计了一个游戏,在这个游戏中,模型的两种模式被驱使着去寻找他们能达成一致的答案。这个简单的程序被称为共识博弈(consensus game),让 LLM 与自己竞争,使用博弈论工具来提高模型的准确性和内部一致性。
论文链接:https://openreview.net/forum?id=n9xeGcI4Yg
机器人公司 Field AI 的首席科学官 Shayegan Omidshafiei 表示:「探索这些模型内部一致性的研究非常有限。这篇论文是第一篇通过巧妙而系统的方式解决这个问题的论文之一,它为语言模型创建了一个可以自己玩的游戏。」
「这确实是一项令人兴奋的工作,」谷歌研究院的研究科学家 Ahmad Beirami 补充道。他说,几十年来,语言模型一直以同样的方式生成对提示的响应。「麻省理工学院的研究人员提出了将游戏引入这一过程的新颖想法,引入了一种完全不同的范式,这可能会催生一系列新的应用程序。」
将游戏融入研究
这项新研究利用游戏来改进人工智能,与过去的方法形成鲜明对比,过去的方法通过游戏的掌握程度来衡量人工智能程序的成功。
例如,1997 年,IBM 的深蓝计算机击败了国际象棋大师 Garry Kasparov,这对于所谓的思维机器来说是一个里程碑。十九年后,一个名为 AlphaGo 的谷歌 DeepMind 程序在与前围棋冠军李世石的五场比赛中赢得了四场,揭示了另一个人类不再称霸的竞技场。机器在跳棋、两人扑克和其他「零和」游戏中也超越了人类,在这些游戏中,一个玩家的胜利必然会导致另一个玩家的失败。
Athul Paul Jacob 帮助设计了共识博弈,为大型语言模型提供了一种提高准确性和可靠性的方法。
外交(Diplomacy)游戏给人工智能研究人员带来了更大的挑战,这是 John F. Kennedy 和 Henry Kissinger 等政治家最喜欢的游戏。游戏中不仅有两名对手,还有七名玩家,他们的动机可能很难理解。为了获胜,玩家必须进行谈判,达成任何人都可以随时违反的合作安排。
外交是如此复杂,以至于 Meta 的一个团队在 2022 年看到其人工智能程序 Cicero 在 40 场游戏中开发出「人类水平的玩法」时感到非常高兴。虽然它没有击败世界冠军,但 Cicero 在与人类参与者的比赛中表现出色,进入了前 10%。
在该项目期间,Jacob(Meta 团队的成员)对 Cicero 依赖语言模型来生成与其他玩家的对话这一事实感到震惊。他感觉到了尚未开发的潜力。他说,团队的目标是「为了玩这个游戏,我们能够构建最好的语言模型。」但如果他们转而专注于创造能够提高大型语言模型性能的最佳游戏呢?
「两厢情愿」的交互
2023 年,Jacob 开始在麻省理工学院研究这个问题,与 Yikang Shen、Gabriele Farina 和他的顾问 Jacob Andreas 合作,研究什么将成为共识博弈。核心思想来自于将两个人之间的对话想象成一场合作游戏,当听众理解说话者试图传达的内容时,成功就会发生。特别是,共识博弈旨在协调语言模型的两个系统——处理生成问题的生成器和处理判别性问题的判别器。
经过几个月的停顿和启动,团队将这一原则融入到了一款完整的游戏中。首先,生成器收到一个问题。它可以来自人类,也可以来自预先存在的列表。例如,「巴拉克·奥巴马出生在哪里?」 然后生成器会收到一些候选响应,比如说檀香山、芝加哥和内罗毕。同样,这些选项可以来自人类、列表或语言模型本身执行的搜索。
但在回答之前,生成器还会被告知是否应该正确或错误地回答问题,具体取决于公平抛硬币的结果。
如果是正面,那么机器会尝试正确回答。生成器将原始问题及其选择的响应发送给鉴别器。如果鉴别器确定生成器有意发送了正确的响应,则它们每个人都会得到一分,作为一种激励。
如果硬币反面朝上,生成器会发送它认为错误的答案。如果鉴别器认为是故意给出错误的反应,他们都会再次得到一分。这里的想法是激励协议。「这就像教狗变戏法,」Jacob 解释道。「当他们做正确的事时,你就给他们奖励。」
生成器和鉴别器也各自以一些初始「信念」开始。它们采用与不同选择相关的概率分布的形式。例如,生成器可能认为,根据从互联网收集的信息,奥巴马出生在檀香山的可能性为 80%,出生于芝加哥的可能性为 10%,内罗毕的可能性为 5%,5% 的可能性出生在其他地方。
鉴别器可以从不同的分布开始。虽然这两个「玩家」仍会因达成协议而获得奖励,但他们也会因偏离最初信念太远而被扣分。这种安排鼓励玩家将他们对世界的了解(同样来自互联网)纳入他们的反应中,这应该会使模型更加准确。如果没有这样的东西,他们可能会同意像 Delhi 这样完全错误的答案,但仍然可以获得积分。
对于每个问题,两个系统都会相互进行大约 1,000 场比赛。在这些无数次迭代的过程中,每一方都会了解对方的信念并相应地修改其策略。
最终,生成器和判别器在进入称为纳什均衡(Nash equilibrium)的状态时开始更加一致。这可以说是博弈论的核心概念。它代表了游戏中的一种平衡——没有玩家可以通过改变策略来改善个人结果。例如,在石头剪刀布中,当玩家选择三个选项中的每一个恰好有三分之一的时间时,他们会表现得最好,而使用任何其他策略时他们总是会表现得更差。
在共识博弈中,这可以通过多种方式发挥作用。判别器可能会观察到,每当生成器发送奥巴马出生地「檀香山」这个词时,判别器就会说「正确」,从而得到一个分数。经过重复的游戏后,生成器和鉴别器将了解到,他们将因继续这样做而获得奖励,并且两者都不会有任何动力去做其他任何事情。这个共识代表了这个问题的纳什均衡的许多可能的例子之一。麻省理工学院的研究小组还依赖于纳什均衡的修改形式,其中包含了参与者先前的信念,这有助于让他们的反应立足于现实。
研究人员观察到,最终的效果是使玩这个游戏的语言模型更加准确,并且无论问题如何提出,都更有可能给出相同的答案。为了测试共识博弈的效果,团队在具有 70 亿到 130 亿参数的各种中等规模语言模型上尝试了一组标准问题。这些模型通常比没有玩过的模型获得更高的正确响应百分比,甚至比那些拥有多达 5400 亿个参数的模型还要高。玩游戏还提高了模型的内部一致性。
原则上,任何 LLM 都可以从与自己进行的游戏中受益,并且在标准笔记本电脑上玩 1,000 轮只需要几毫秒。「整个方法的一个好处是,」Omidshafiei 说,「它的计算量非常轻,不需要对基础语言模型进行训练或修改。」
用语言玩游戏
在取得初步成功后,Jacob 现在正在研究将博弈论引入 LLM 研究的其他方法。初步结果表明,已经很强大的 LLM 可以通过使用任意数量的较小模型玩不同的游戏(暂时称为集成游戏)来进一步提高。主要 LLM 将至少有一个较小的模型作为盟友,并且至少有一个较小的模型扮演对抗角色。如果主要的 LLM 被要求说出美国总统的名字,只要它选择与盟友相同的答案,它就会得到一分,如果它选择与对手不同的答案,它也会得到一分。
测试表明,这些与更小的模型的交互不仅可以提高 LLM 的表现,而且无需额外的训练或参数更改即可实现这一点。
Ian Gemp 将博弈论引入现实世界,这可以使大型语言模型在战略情况下提供帮助。
而这仅仅是开始。谷歌 DeepMind 的研究科学家 Ian Gemp 表示,由于各种情况都可以被视为游戏,因此博弈论的工具可以在各种现实世界的环境中发挥作用。在 2024 年 2 月的一篇论文中,他和同事重点讨论了需要更精细的交流而不仅仅是问题和答案的谈判场景。「这个项目的主要目标是使语言模型更具战略性,」他说。
他在一次学术会议上讨论的一个例子是期刊或会议接受论文的审查过程,特别是在初次提交的论文受到严厉审查之后。鉴于语言模型将概率分配给不同的反应,研究人员可以构建类似于扑克游戏设计的游戏树,绘制可用的选择及其可能的后果。「一旦你这样做了,你就可以开始计算纳什均衡,然后对一堆反驳进行排序,」Gemp 说。该模型本质上告诉您:这是我们认为您应该回复的内容。
借助博弈论的见解,语言模型将能够处理更复杂的交互,而不仅仅局限于问答类型的问题。「未来的巨大回报与更长的对话有关,」Andreas 说。「下一步是让人工智能与人互动,而不仅仅是另一种语言模型。」
Jacob 将 DeepMind 的工作视为共识游戏和集成游戏的补充。「从高层次上来说,这两种方法都将语言模型和博弈论结合起来,」他说,尽管目标有些不同。Jacob 表示,虽然 Gemp 小组正在将常见情况转化为游戏格式以帮助制定战略决策,但「我们正在利用我们对博弈论的了解来改进一般任务中的语言模型。」
Jacob 说,目前,这些努力代表了「同一棵树的两个分支」——增强语言模型功能的两种不同方式。「我的愿景是在一两年内,这两个分支将融合。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-26
新型LLM优化技术削减内存成本高达75%
2024-12-26
AI模型训练到底在训练什么?
2024-12-25
Cursor小白必看:听说你还在安装配置环境?学会这个让你告别环境烦恼!
2024-12-25
微软变脸OpenAI,模型价值之争压不住了?
2024-12-25
GPT-5 研发一年半进度堪忧!每轮 5 亿美金训练成本打水漂,还得雇人从头“造数据”
2024-12-25
基于昇腾910B,使用XTuner微调一个InternLM个人小助手丨玩转书生大模型
2024-12-25
BERT新版本:ModernBERT -- Smarter, Better, Faster, Longer
2024-12-25
Cursor 0.44 重磅更新:全面提升 Agent 能力
2024-09-18
2024-07-11
2024-07-11
2024-07-09
2024-06-11
2024-10-20
2024-07-26
2024-07-23
2024-07-20
2024-07-12