微信扫码
和创始人交个朋友
我要投稿
深入了解Agent AI的最新进展及其在多模态交互中的技术挑战。 核心内容: 1. Agent AI的概念与通用人工智能的联系 2. Agent AI集成过程中的挑战及解决方案 3. Agent AI学习策略与跨模态交互能力 4. Agent AI在不同领域的应用场景 5. Agent AI的持续自我改进与未来发展
这篇论文深入探讨了多模态人工智能系统,尤其是智能体(Agent)在物理和虚拟环境中的交互性。它不仅为研究人员和AI领域提供了一份研究路线图,更展现了AI未来发展的深刻洞见。论文的核心内容分为以下几个部分:
一、Agent AI 的概念
介绍了Agent AI的背景、动机及未来目标,探讨了其如何成为实现通用人工智能(AGI)的重要途径。
二、Agent AI 面临的挑战
讨论了Agent AI与现有的大型基础模型(如LLMs和VLMs)集成过程中遇到的挑战,例如幻觉、偏见和数据隐私等问题,并探讨了相应的解决方法。
三、Agent AI 的学习策略
探讨了训练Agent AI的不同策略和机制,包括强化学习、模仿学习和上下文学习等。
四、Agent AI 的分类与应用
对Agent AI的不同类型进行了分类,并探讨了它们在游戏、机器人技术、医疗保健等领域的实际应用场景。
五、跨模态、跨领域和跨现实的Agent AI
讨论了Agent AI如何在不同的模态、领域和现实之间进行交互和理解,以及如何实现从模拟到现实的转移,这是论文中非常有前瞻性的研究和讨论。
六、Agent AI 的持续自我改进
探索了Agent AI如何通过与外部环境和用户的互动不断学习和自我改进,同时指出了目前存在的挑战和困难。
本篇文章探讨Agent AI 面临的挑战这部分。
01 | 无限的智能体 |
02 | 基于大基础模型的智能体 AI |
03 | 智能体 AI 用于涌现能力 |
多模态人工智能系统很可能成为我们日常生活中无处不在的存在。
一种有前景的方法是将这些系统具身化为物理和虚拟环境中的智能体,从而使它们更具交互性。
目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入此类环境有助于模型处理和解释视觉和上下文数据,这对于创建更复杂和上下文感知的人工智能系统至关重要。
例如,一个能够感知用户动作、人类行为、环境对象、音频表达和场景集体情感的系统,可以用于告知和指导给定环境中的智能体响应。
为了加速基于智能体的多模态智能研究,我们将“智能体 AI”定义为一类交互系统,这些系统能够感知视觉刺激、语言输入和其他环境基础数据,并能够产生有意义的具身行动。特别是,我们探讨了旨在通过整合外部知识、多感官输入和人类反馈来改进基于下一具身动作预测的代理的系统。
我们主张,通过在具身环境中开发具身的 AI 系统,也可以缓解大型基础模型的幻觉问题及其生成与环境不符的输出的倾向。Agent AI 的新兴领域涵盖了多模态交互中更广泛的具身和具身性方面。
除了Agent 在物理世界中行动和交互之外,我们设想了一个未来,届时人们可以轻松创建任何虚拟现实或模拟场景,并与虚拟环境中具身化的代理进行交互。
能够感知并作用于不同领域与应用的智能体 AI 系统概览。
智能体 AI 正逐渐成为通向人工通用智能(AGI)的一条前景广阔的路径。智能体 AI 训练已展现出物理世界多模态理解能力,通过结合生成式 AI 与多个独立数据源,构建了与物理现实解耦的训练框架。基于跨现实数据训练的智能体及行为相关大型基础模型,可同时应用于物理世界和虚拟世界。我们提出智能体 AI 系统的通用框架,该系统能实现跨领域多场景的感知与行动,有望通过智能体范式成为实现 AGI 的可行路径。
2、智能体人工智能集成
尽管基于大型语言模型(LLMs)和视觉语言模型(VLMs)的基座模型在具身智能领域已有所应用,但其性能仍存在局限性,尤其在理解、生成、编辑以及与未见环境或场景交互方面表现欠佳。这使得 AI 代理的输出往往难以达到最优水平。
当前以智能体为中心的 AI 建模方法,主要聚焦于直接可访问且明确定义的数据,如文本或以字符串形式呈现的世界状态。此类方法通常借助大规模预训练所习得的与领域和环境无关的模式,来为每个特定环境预测动作输出。在我们此前的研究中,通过融合大型基金会模型,深入探究了知识引导的协作与交互式场景生成任务,并取得了令人鼓舞的成果。这表明基于知识的 LLM 代理能够显著提升 2D 和 3D 场景理解、生成与编辑的性能,同时在与其他人类 - 代理的交互过程中也展现出优势。
通过集成 Agent AI 框架,大型基础模型得以更精准、深入地理解用户输入,从而构建起一个复杂且极具适应性的人机交互(HCI)系统。在生成式 AI 领域,LLM 和 VLM 作为不可见的底层架构,其涌现能力逐渐显现,广泛应用于具身 AI、多模态学习的知识增强、混合现实生成、文本到视觉编辑,以及涉及 2D/3D 模拟的游戏或机器人任务中的人机交互等多个方面。
Agent AI 在基础模型中的最新进展,为解锁具身智能体中的通用智能提供了关键的催化剂。大型动作模型,亦即 Agent - 视觉 - 语言模型,为通用具身系统的实现开辟了全新可能性,使其能够在复杂环境中进行高效规划、问题解决和持续学习。Agent AI 不仅在元宇宙中迈出了进一步的测试步伐,更为通用人工智能(AGI)的早期版本指明了发展方向。
2.1、无限的智能体
人工智能(AI)代理具备根据其训练数据和输入数据进行解释、预测和响应的能力。尽管这些能力先进且持续改进,但认识到其局限性以及训练所依赖的底层数据的影响至关重要。
AI 代理系统通常具备以下能力:
预测建模:AI 代理可以根据历史数据和趋势预测可能的结果或建议下一步行动。例如,它们可以预测文本的延续、问题的答案、机器人的下一步动作,或某一情景的解决方案。
决策制定:在某些应用中,AI 代理可以根据其推理结果做出决策。通常,代理会基于最有可能实现特定目标的推理结果来做出决策。对于推荐系统等 AI 应用,代理可以根据对用户偏好的推理,决定推荐哪些产品或内容。
处理模糊性:AI 代理通常能够通过基于上下文和训练数据的推理,处理模糊的输入并选择最可能的解释。然而,其处理模糊性的能力受到训练数据范围和算法的限制。
持续优化:虽然一些 AI 代理能够从新数据和交互中学习,但许多大型语言模型在训练后并不会持续更新其知识库或内部表示。它们的推理通常仅基于截至最后一次训练更新时可用的数据。
在机器人领域,这种无限智能体的一个应用是 RoboGen(王等人,2023d)。在该研究中,作者提出了一种自主运行任务提出、环境生成和技能学习循环的流水线。RoboGen 旨在将大型模型中嵌入的知识转移到机器人领域。
2.2、基于大基础模型的智能体 AI
近期研究表明,大型基础模型在生成用作基准的数据方面发挥着关键作用,这些数据用于确定代理在环境施加的约束条件下的行为。
例如,使用基础模型进行机器人操作和导航。例如,Black 等人使用图像编辑模型作为高级规划器,生成未来子目标的图像,从而指导低级策略。对于机器人导航,Shah 等人提出了一种系统,该系统利用LLM从文本中识别地标,并使用视觉语言模型(VLM)将这些地标与视觉输入相关联,通过自然语言指令增强导航。
此外,人们对根据语言和环境因素生成条件化的人类运动也日益感兴趣。已有多个 AI 系统被提出,用于生成针对特定语言指令定制的动作,并适应各种 3D 场景。这一系列研究突显了生成模型在增强 AI 代理在多样化场景中的适应性和响应性方面日益增长的能力。
2.2.1、幻觉
生成文本的智能体通常容易产生幻觉,即生成的文本缺乏意义或与提供的源内容不符。幻觉可以分为两类,内在幻觉和外在幻觉。
内在幻觉是与源材料相矛盾的幻觉,而外在幻觉则是生成文本中包含源材料中未 originally 包含的额外信息。
在语言生成中减少幻觉率的一些有前景的方法包括使用检索增强生成或其他通过外部知识检索来产生自然语言输出的方法。通常,这些方法旨在通过检索额外的来源材料,并提供机制来检查生成的响应与来源材料之间的矛盾,从而增强语言生成。
在多模态智能体系统中,视觉语言模型(VLMs)也被发现会产生幻觉。视觉生成语言的一个常见幻觉原因是对训练数据中物体与视觉线索共现的过度依赖。仅依赖预训练模型(如LLMs)或 VLMs,并且仅进行有限环境特定微调的 AI 智能体,特别容易产生幻觉。这是因为它们依赖预训练模型的内部知识库来生成动作,可能无法准确理解部署环境中世界状态的动态。
2.2.2、偏见与包容性
基于LLMs或 LMMs(大型多模态模型)的 AI 代理由于其设计和训练过程中的内在因素而存在偏见。在设计这些 AI 代理时,我们必须考虑到包容性,并关注所有最终用户和利益相关者的需要。
在 AI 代理的语境下,包容性指的是为确保代理的响应和交互对来自各种背景的广泛用户而言具有包容性、尊重性和敏感性所采用的措施和原则。
我们列出了代理偏见和包容性的关键方面如下。
训练数据:
基础模型是在从互联网收集的大量文本数据上进行训练的,包括书籍、文章、网站和其他文本来源。这些数据通常反映了人类社会中存在的偏见,模型可能无意中学习并复制这些偏见。这包括与种族、性别、民族、宗教和其他个人属性相关的刻板印象、偏见和有偏见的观点。
特别是,通过在互联网数据上进行训练,通常仅使用英文文本,模型会隐式地学习西方、受过教育、工业化、富裕和民主社会的文化规范,这些社会在互联网上占据不成比例的大量存在。
然而,必须认识到,由人类创建的数据集不可能完全不含偏见,因为它们通常反映了社会偏见以及最初生成和/或编译数据的个人的倾向。
历史与文化偏见:
AI 模型是基于来自多种内容的大型数据集进行训练的。因此,训练数据通常包含历史文本或来自各种文化背景的材料。特别是,来自历史来源的训练数据可能包含代表特定社会文化规范、态度和偏见的冒犯性或贬低性语言。这可能导致模型延续过时的刻板印象或未能完全理解当代文化转变和细微差别。
语言和语境限制:
语言模型可能在理解和准确表达语言中的细微差别方面存在困难,例如讽刺、幽默或文化参考。这可能导致在某些语境下出现误解或有偏见的回应。
此外,有许多口语方面的内容无法通过纯文本数据捕捉到,这可能导致人类对语言的理解与模型对语言的理解之间出现潜在脱节。
政策与指南:
人工智能(AI)代理在严格的政策和指南下运行,以确保公平性和包容性。
例如,在生成图像时,有规则要求多样化人物的描绘,避免与种族、性别和其他属性相关的刻板印象。
过度概括:
这些模型往往根据训练数据中观察到的模式生成响应。这可能导致过度概括,模型可能会生成看似对某些群体进行刻板印象或做出广泛假设的响应。
持续监控和更新:
人工智能系统持续受到监控和更新,以应对任何新兴的偏见或包容性问题。用户反馈以及人工智能伦理学领域的持续研究在这一过程中发挥着关键作用。
主流观点的放大:
由于训练数据通常包含更多来自主流文化或群体的内容,模型可能更倾向于这些观点,可能低估或曲解少数群体的观点。
伦理与包容性设计:
人工智能工具的设计应以伦理考量和包容性为核心原则。这包括尊重文化差异、促进多样性,并确保人工智能不会延续有害的刻板印象。
用户指南:
用户还被指导如何以促进包容性和尊重的方式与 AI 互动。这包括避免提出可能导致有偏见或不适当输出的请求。此外,这有助于减少模型从用户互动中学习有害内容的风险。
尽管采取了这些措施,AI Agent 仍然表现出偏见。Agent AI 研究和开发的持续努力集中在进一步减少这些偏见,以及提高代理 AI 系统的包容性和公平性。
以下是减轻偏见的一些努力:
多样且包容的训练数据:努力在训练数据中纳入更多样化和包容的来源范围。
偏见检测与修正:正在进行的研究致力于检测和修正模型响应中的偏见。
伦理准则与政策:模型通常受旨在减少偏见并确保尊重和包容的互动的伦理准则与政策的约束
多样化呈现:确保生成的内容或 AI 代理提供的响应涵盖广泛的人类体验、文化、种族和身份。这在图像生成或叙事构建等场景中尤为重要。
偏见缓解:积极采取措施减少 AI 回复中的偏见。这包括与种族、性别、年龄、残疾、性取向以及其他个人特征相关的偏见。目标是提供公平、平衡的回应,避免延续刻板印象或偏见。
文化敏感性:该人工智能首在具备文化敏感性,承认并尊重文化规范、实践和价值观的多样性。这包括理解并适当回应文化参考和细微差别。
可访问性:确保 AI 代理对不同能力的用户,包括残障人士,具有可访问性。这可能涉及整合功能,使视觉、听觉、运动或认知障碍者更容易进行交互。
基于语言的包容性:支持多种语言和方言,以满足全球用户的需求,并对语言的细微差别和变化保持敏感。
伦理与尊重的互动:该智能体被编程以符合伦理目尊重的方式与所有用户互动,免产生可能被视为冒犯、有害或不尊重的回应。
用户反馈与适应:通过整合用户反馈,持续提升 AI 代理的包容性和有效性。这包括从互动中学习,以更好地理解和服务于多样化的用户群体。
遵守包容性指南:遵循为 AI 代理制定的包容性指南和标准,这些指南和标准通常由行业协会、伦理委员会或监管机构制定。
尽管付出了这些努力,但重要的是要意识到回复中可能存在偏见,并以批判性思维进行解读。人工智能代理技术的持续改进和伦理实践旨在随着时间的推移减少这些偏见。在代理 AI 中实现包容性的总体目标之一是创建一个尊重并能为所有用户所访问的代理,无论其背景或身份如何。
2.2.3、数据险私和使用
人工智能代理的一个关键伦理考量在于理解这些系统如何处理、存储以及可能检索用户数据。我们将在下文讨论关键方面:
数据收集、使用和目的。在利用用户数据提升模型性能时,模型开发者会访问 AI 代理在生产环境中与用户互动时所收集的数据。某些系统允许用户通过用户账户查看他们的数据,或者向服务提供商提出请求。重要的是要认识到 AI 代理在这些互动中收集了哪些数据。这可能包括文本输入、用户使用模式、个人偏好,有时还包括更敏感的个人信息。用户还应了解从他们的互动中收集的数据是如何被使用的。如果出于某种原因,AI 对特定个人或群体持有不正确的信息,一旦被识别出来,应有机制让用户帮助纠正这一点。这对于准确性和尊重所有用户和群体都非常重要。检索和分析用户数据的常见用途包括改善用户互动、个性化响应和系统优化。对于开发者来说,确保数据不会被用于用户未同意的用途(如未经请求的营销)至关重要。
存储与安全。开发人员应了解用户交互数据存储的位置,以及采取了哪些安全措施来防止未经授权的访问或数据泄露。这包括加密、安全服务器和数据保护协议。至关重要的是要确定代理数据是否与第三方共享以及在何种条件下共享。这应保持透明,通常需要获得用户的同意。
数据删除与保留。对于用户而言,了解用户数据存储时长以及如何请求删除数据同样重要。众多数据保护法规赋予用户"被遗忘权",即用户有权要求删除其数据。AI 代理必须遵守欧盟的 GDPR 或加州的 CCPA 等数据保护法规。这些法规规范了数据处理实践以及用户对其个人数据的权利。
数据可移植性和隐私政策。此外,开发者必须为 AI 代理创建隐私政策,以向用户说明其数据如何被处理。这应详细说明数据收集、使用、存储以及用户权利。开发者应确保获得用户对数据收集的同意,特别是涉及敏感信息时。用户通常可以选择退出或限制提供的数据。在某些司法管辖区,用户甚至有权要求以可转移至另一服务提供商的格式获取其数据副本。
匿名化。对于用于更广泛分析或 AI 训练的数据,理想情况下应进行匿名化处理,以保护个人身份信息。开发人员必须了解其 AI 代理在交互过程中如何检索和使用历史用户数据。
2.2.4、可解释性和可解释性
模仿学习 → 解耦。
在强化学习(RL)或模仿学习(IL)中,代理通常通过连续的反馈循环进行训练,从随机初始化的策略开始。然而,这种方法在获得不熟悉环境中的初始奖励时面临排行榜挑战,尤其是在奖励稀疏或仅在长步骤交互结束时可用的情况下。因此,更优的解决方案是使用通过 IL 训练的无限内存代理,它可以从业务数据中学习策略,如下图 所示,通过新兴基础设施改善对未见环境空间的探索和利用。借助专家特征,代理可以更好地探索并利用未见的环境空间。AI 代理可以直接从业务数据中学习策略和新的范式流。
传统 IL 通过让代理模仿专家演示者的行为主动生成策略。然而,直接学习专家策略未必总是最佳途径,因为代理可能无法很好地推广到未见情况。为解决这一问题,我们提出学习一个带有上下文提示或隐式奖励函数的代理,该函数捕获专家行为的关键方面,如图 3 所示。这为无限记忆代理配备了物理世界行为数据,用于任务执行,这些数据从专家演示中学习。它有助于克服现有模仿学习的缺点,如对大量专家数据的需求以及在复杂任务中可能出现的错误。
Agent AI 背后的关键思想分为两部分:
1)无限代理收集物理世界专家演示作为状态-动作对;
2)虚拟环境模仿代理生成器。
模仿代理生成的动作模仿专家行为,而代理通过最小化专家动作与学习策略生成动作之间差异的损失函数,学习从状态到动作的策略映射。
解耦 → 泛化。
与依赖任务特定的奖励函数不同,智能体通过学习专家演示来获取知识,这些演示提供了一系列涵盖各种任务方面的状态-动作对。随后,智能体通过模仿专家的行为,学习将状态映射到动作的策略。在模仿学习中,解耦指的是将学习过程与任务特定的奖励函数分离,从而使策略能够在不同任务间泛化,而无需明确依赖任务特定的奖励函数。通过解耦,智能体能够从专家演示中学习,并掌握适应多种情境的策略。解耦还支持迁移学习,即在一个领域学到的策略,经过少量微调即可适应其他领域。通过学习不依赖特定奖励函数的通用策略,智能体能够将其在一个任务中获得的知识迁移到其他相关任务中,表现出良好的性能。
由于智能体不再依赖特定的奖励函数,因此在面对奖励函数或环境的变化时,无需进行大规模的重新训练即可适应。这使得学习到的策略在不同环境中更加鲁棒和具有泛化能力。在此背景下,解耦指的是在学习过程中分离两个任务:学习奖励函数和学习最优策略。
突发交互机制示例,
利用一个智能体从候选中识别与图像相关的文本。该任务涉及使用来自网络的多模态 AI 智能体以及人类标注的知识交互样本,以整合外部世界信息。
泛化 → 涌现行为。
涌现理论解释了复杂系统中如何从简单的组件或规则中产生出新的性质或行为。其核心思想在于识别系统行为的基本元素或规则,例如单个神经元或基础算法。
通过观察这些简单组件或规则之间的相互作用,我们发现这些交互往往会导致复杂行为的出现,而这些行为仅凭单独分析个体组件是无法预测的。系统在不同复杂性层次上的泛化能力使其能够学习适用于这些层次的普遍原则,从而产生涌现性质。
这使系统能够适应新情况,展示出由简单规则产生的更复杂行为。此外,跨不同复杂性层次的泛化能力促进了知识从一个领域向另一个领域的迁移,这有助于系统在适应新环境时在新背景下产生复杂行为。
2.2.5、推理增强
人工智能代理的推理能力在于其根据训练和输入数据进行解释、预测和响应的能力。尽管这些能力先进且不断改进,但重要的是要认识到它们的局限性以及其训练所依赖的底层数据的影响。
特别是在大型语言模型的背景下,这指的是其根据训练数据和接收的输入来得出结论、进行预测和生成响应的能力。
人工智能代理中的推理增强是指通过额外的工具、技术和数据来提升人工智能的自然推理能力,从而提高其性能、准确性和实用性。这在复杂的决策场景中或处理细微或专业的内容时尤为重要。
我们下面列出了推理增强中特别重要的来源:
数据增强。整合额外的、通常来自外部的数据源,以提供更多的背景或上下文,可以帮助 AI 代理做出更有依据的推断,尤其是在其训练数据可能有限的领域。例如,AI 代理可以根据对话或文本的上下文推断出意义。它们分析给定的信息,并利用这些信息来理解用户查询的意图和相关细节。这些模型擅长识别数据中的模式。它们利用这种能力,基于在训练过程中学习到的模式,对语言、用户行为或其他相关现象进行推断。
算法增强。通过改进 AI 的基础算法来提升推理能力。这可能包括采用更先进的机器学习模型,整合不同类型的 AI(例如将自然语言处理与图像识别相结合),或更新算法以更好地处理复杂任务。语言模型中的推理涉及理解和生成人类语言。这包括捕捉语气、意图以及不同语言结构的细微差别。
人机协同(HITL)。在需要人类判断的关键领域,如伦理考量、创造性任务或模糊情境中,引入人类输入以增强 AI 的推理能力尤为重要。人类能够提供指导、纠正错误或分享见解,这些是 AI 代理无法自行推断的。
实时反馈集成。利用实时反馈来自用户或环境以增强推理是另一种在推理过程中提升性能的有前途的方法。例如,人工智能可以根据实时用户反馈或动态系统中变化的条件调整其推荐。或者,如果代理在模拟环境中采取的行动违反了某些规则,可以动态地给予代理反馈,以帮助其自我纠正。
跨领域知识迁移。利用一个领域中的知识或模型来提升另一个领域的推理能力,尤其在生成特定学科的输出时,这种做法特别有用。例如,用于语言翻译的技术可能被应用于代码生成,或者医学诊断中的见解可能有助于提高机器的预测性维护。
特定使用场景的定制化。针对特定应用或行业的 AI 推理能力进行定制,可能涉及在专业数据集上训练 AI 或对模型进行微调以更好地适应特定任务,例如法律分析、医学诊断或财务预测。由于某一领域内的特定语言或信息可能与其它领域的语言有很大差异,因此在特定领域信息上对代理进行微调是有益的。
伦理与偏见考量。确保增强过程不引入新的偏见或伦理问题至关重要。这需要仔细考虑额外数据的来源,或新推理增强算法对公平性和透明度的影响。在进行推理,特别是在涉及敏感话题时,AI 代理有时需要处理伦理考量。这包括避免有害的刻板印象、尊重隐私以及确保公平性。
持续学习与适应。定期更新和优化 AI 的能力,以跟上新发展、变化的数据格局和不断演变的用户需求。
综上所述,人工智能代理中的推理增强涉及通过额外数据、改进算法、人类输入和其他技术来增强其自然推理能力的方法。根据具体应用场景,这种增强通常至关重要,用于处理复杂任务并确保代理输出的准确性。
2.2.6、规定
Agent AI 领域取得了显著进展,其与具身系统的融合为与智能体交互开辟了新的可能性,带来了更加沉浸式、动态化和引人入胜的体验。
为了加速开发进程并减轻在 Agent AI 开发中的繁重工作,我们提出开发下一代 AI 增强型智能体交互流水线。构建一个人机协作系统,使人类与机器能够进行有意义的沟通与互动。该系统可利用LLM或视觉语言模型(VLM)的对话能力及丰富的动作库,与人类玩家交流并识别其需求。随后,系统将根据请求执行适当的操作以协助人类玩家。
开发的机器人教学系统。
(左) 系统工作流程。该过程包括三个步骤:任务规划,其中 ChatGPT 根据指令和环境信息规划机器人任务;演示,其中用户通过视觉方式展示动作序列。所有步骤均需用户审核,若任何步骤失败或存在不足,可按需返回前序步骤进行调整。
(右) 一个网络应用程序,支持上传演示数据,并实现用户与 ChatGPT 之间的交互功能。
在将LLM/VLM 用于人机协作系统时,需注意这些模型作为黑箱运行,生成不可预测的输出。这种不确定性在物理环境中可能变得至关重要,例如操作实际机器人。
解决这一挑战的一种方法是通过提示工程限制LLM/VLM 的关注点。例如,在从指令进行机器人任务规划时,有研究指出在提示中提供环境信息比单纯依赖文本能产生更稳定的输出。
另一种方法是设计提示,使LLM/VLMs 包含解释性文本,以便用户理解模型关注或识别的内容。此外,在人工指导下实现一个更高层次的模块,允许在执行前进行验证和修改,可以促进在该指导下运行的系统的操作。
2.3、智能体 AI 用于涌现能力
尽管交互式智能体 AI 系统的采用日益普及,但大多数提出的解决方案在面对未见环境或场景时,仍面临着泛化性能的挑战。
当前的建模实践要求开发者为每个领域准备大规模数据集以微调或预训练模型;然而,这一过程成本高昂,甚至在领域为新时变得不可行。
为解决这一问题,我们构建了交互式智能体,利用通用基础模型(如 ChatGPT、Dall-E、GPT-4 等)的知识记忆,以应对新型场景,具体而言,是为人与智能体之间生成协作空间。我们发现了一种新兴机制——我们将其命名为“知识推理交互的混合现实”——该机制能够促进与人类的协作,以解决复杂现实环境中的挑战性任务,并使探索未见环境成为可能,从而实现对虚拟现实的适应。
提出的多模态通用智能体的新代理范式。
主要有 5 个模块:1) 环境与感知,包含任务规划和技能观察;2) 代理学习;3) 记忆;4) 代理行动;5) 认知。
对于这一机制,代理学习
i) 跨模态的微观反应:从显式的网络资源中收集每个交互任务的相关个体知识(例如,理解未见过的场景),并通过隐式推理从预训练模型的输出中获取;
ii) 现实无关的宏观行为:在语言和多模态领域中提升交互维度和模式,并根据角色特征、特定目标变量以及混合现实和 LLMs 中影响的协作信息多样化进行调整。
我们研究了知识引导的交互协同效应在结合各种 OpenAI 模型进行协作场景生成中的任务,并展示了交互代理系统如何进一步提升大型基础模型的有前景结果。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-12
2024-06-14
2024-08-06
2024-05-30
2024-06-17
2024-08-30
2024-11-28
2024-04-21
2024-10-16
2024-06-26