AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


车载AI Agent产品开发:如何通过大模型实现“座舱代言人”?
发布日期:2024-09-07 20:00:53 浏览次数: 1906 来源:佐思汽车研究



佐思汽研发布《2024年车载AI Agent产品开发与商业化研究报告》。


根据OPEN AI对AI的分类方式(共5个级别),AI Agent位于AI发展路径的第3个级别:


OPEN AI对AI的分类方式

来源:OPEN AI


而2023年大热的大模型受限于交互方式与工具使用能力等,最多也只能达到L2推理者的级别。对比下来,通过构建车载Agent来发展汽车AI体系是一个较为合适的目标:Agent通过主动智能特性与多类工具/大模型调用,补全大模型在场景应用中的痛点,进一步提升座舱智能化水平。



Agent是情感座舱代言人



“情感座舱”的口号已经喊了很多年,但是真正实现还是从大模型上车开始,在触发特定条件下,语音助手通过预置的情感语料库与用户聊天,但在真实聊天场景下无法适应人类的对话逻辑;而车载Agent上车后,通过集成多个大模型底座,对环境的识别更为准确,更多数量的工具库接口则进一步加强了其泛化能力,能够应付多元化场景下的聊天问答,真正实现“座舱代言人”的温暖陪伴。


部分Agent在不同场景下的情感关怀示例

整理:佐思汽研


主流的情感交互场景的设计重点在情绪识别、用户记忆、行为编排等领域,部分主机厂、Tier1也推出了提升Agent情感价值的技术或产品:


部分主机厂、Tier1的Agent情感技术/产品

整理:佐思汽研


以小爱同学为例,其“情感对话系统”的构建包含三个步骤:


小爱同学“情感对话系统”构建步骤

整理:佐思汽研


混合策略疏导模型包含情感状态增强编码器、混合策略学习模块、多因素感知解码器三个重要组件

来源:小米


马耳他大学数字游戏研究所提出了情感框架(Affectively Framework),设立情感模型,在训练过程中采用行为奖励和情感奖励机制,帮助 Agent 更好地理解人类的情感,并能够与人类进行更自然的交互。


基于情感奖励的情感框架

来源:马耳他大学数字游戏研究所



升用户体验需要解决的痛点



想象一下,智能座舱不仅能够听懂并执行车主下达的指令,还能预测车主的需求,就像一个贴心的私人助理,这是不是会让车主更加期待?相比于买了传统汽车后每个功能还要自己摸索一遍,谁不想要一个“动动嘴”就能帮你打理所有座舱功能的座舱“代言人”呢?Agent主打一个省时省事。


理想同学对车主景点推荐需求的响应(被动推荐)

来源:理想


虽然现阶段已上车的Agent大部分还停留在助手、陪伴以及具体场景功能列举层面,但相比于大模型,Agent拥有更大潜力,具备可激发的自主性和突出的工具使用能力,更加贴合“主动智能”标签,甚至能够弥补大模型在实际应用中的限制。


大模型与Agent的部分区别

整理:佐思汽研


然而,要让车载Agent真正做到“主动智能”,满足用户的体验价值,在技术开发上还有很长的路要走。Agent需要在主动感知、数据处理、状态识别等环节做得更加精确,通过准确理解环境,判断车内人员的真实需求,再根据不同环境采取不同的策略。其中,难点之一在于Agent对用户需求的准确判断,相比正常情况下的被动交互,主动意图识别缺少语音指令,而在环境/人员/车辆状态识别的过程中,未必能够通过向量特征匹配得到与当前场景极为相近的描述,预置方案也未必符合车内人员真正的意图。


主动推荐动作的生成示意图

来源:佐思汽研


目前,多数推荐功能仅仅是执行预设的指令,反而限制了Agent的“主动智能”能力,导致在推理环节频繁出现痛点。例如,如果Agent不能准确理解当前的场景,它就可能做出不符合用户预期的推荐,比如在错误的时间推荐音乐或导航等。最终结果就是影响用户体验,导致Agent成为用户眼中的“猜测机器”。


Agent“无效推荐”案例1


Agent“无效推荐”案例2

整理:佐思汽研


此外,Agent在接受语音指令的感知环节同样也有痛点,如佐思汽研非完全统计了部分车主对于使用车载Agent的使用痛点案例,频率较高的痛点主要为唤醒失败、识别错误、误唤醒。


不完全统计下的车载Agent使用痛点分析

整理:佐思汽研


在120个痛点案例中,唤醒失败、识别错误、误唤醒的提及频率分别达到19、18、17个,占比分别为16%、15%、14%,其他痛点还包括不支持可见可说、不识别方言、延迟响应、不支持语义澄清、不支持连续指令等,共计89个语音环节的痛点,占本次统计调研的74.2%。


此外,Agent架构/场景设计不合理导致的一系列问题还包括场景触发条件不合理、大模型需要二次唤醒、长/短期记忆失效、根据车主习惯自主做出的推荐动作不符合预期等,分别体现了Agent在场景设置、架构部署、记忆模块、反思模块上的限制。


总结说来,用户痛点较多地集中在感知与推理环节:
  • 感知:“叫不醒”(唤醒失败)、“瞎回答”(误唤醒)、“听不懂”(识别错误)、“啥也不会”(不支持可见可说)、“耳背”(延迟响应)等;
  • 推理:“睁眼瞎”(物体识别错误)、“乱推荐”(自主推荐不符合用户预期)等。



快速响应的多Agent框架



为实现“代言人”在座舱的全面功能,Agent在多元化场景下的服务框架设计极为重要。Agent框架构建方式较为灵活,可以采用最简单的“接收器+执行器”架构,也可以构建更加复杂的多智能体架构,其设计原则很简单:只要在特定场景下能解决用户问题,那就是好的框架设计。作为一个合格的“座舱代言人”,车载Agent除了需要像一个独立思考的个体,自己做决定、解决问题外,还要像人一样,快速、自如地采取人类的行为模式。

蔚来汽车的Nomi就是一个典型的例子。它采用了多智能体架构,在不同的场景下,调用不同的工具,通过多个分工不同的Agent履行特定职责,共同完成理解需求、决策裁决、执行任务、反思迭代的流程。多智能体架构让Nomi不仅能够快速响应,还能像人一样做出更自然的反应,与汽车的其他功能无缝融合,让体验更加流畅。

蔚来Nomi Agent采用多智能体架构

来源:蔚来


相比单Agent系统,多Agent系统更适合执行复杂的指令,就像一个小型社区,每个“Agent”都有自己的任务,但它们又能协作完成更复杂的工作。比如,一个Agent负责理解你的指令,另一个负责决策,还有专门的Agent来执行任务。这种设计让车载AI Agent系统更加灵活,能够处理更多样化的任务。如澳大利亚联邦科学与工业研究组织(CSIRO)提出一种同时采用协调Agent和执行Agent的多Agent系统:


一种多Agent系统框架示例

来源:CSIRO


整个Agent框架分为6个模块,分别为感知交互(Understanding&Interaction)、推理(Reasoning)、工具使用(Tool Use)、多Agent协作(Multi-Agent Collaboration)、反思(Reflection)以及价值对齐(Alignment),囊括了主流的Agent设计模式,包含从主动感知、推理决策、工具调用到生成执行、反思迭代并与人类价值对齐的整个流程。该框架的特点是引入多Agent系统,可由不同的Agent分别担当整个流程中分发/决策/执行的不同角色,充分发挥各个Agent优势,提升任务执行的效率。


此外,在多元化场景下,Agent部署方式和工具调用能力也影响着用户需求是否能被快速、准确的执行。以蔚来Nomi为例:


Nomi Agents分别在端侧、云端两个部分进行部署,端侧与云端分别搭载端侧模型与NomiGPT,端侧模型与SkyOS深度融合,能够及时调用原子能力,进行跨域资源的调度(如数据、车控硬件/软件等),加快响应速度;云端Nomi GPT连接更多云端工具资源接口,进一步加强Nomi Agents工具调用能力。Nomi Agents架构布置在SkyOS中间件层,通过与SkyOS结合,调用原子API、硬件/软件、数据的过程更加自然协调、也更加迅速。


Nomi Agents在SkyOS中的布置

来源:蔚来


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询