微信扫码
与创始人交个朋友
我要投稿
佐思汽研发布《2024年车载AI Agent产品开发与商业化研究报告》。
根据OPEN AI对AI的分类方式(共5个级别),AI Agent位于AI发展路径的第3个级别:
OPEN AI对AI的分类方式
来源:OPEN AI
而2023年大热的大模型受限于交互方式与工具使用能力等,最多也只能达到L2推理者的级别。对比下来,通过构建车载Agent来发展汽车AI体系是一个较为合适的目标:Agent通过主动智能特性与多类工具/大模型调用,补全大模型在场景应用中的痛点,进一步提升座舱智能化水平。
Agent是情感座舱代言人
“情感座舱”的口号已经喊了很多年,但是真正实现还是从大模型上车开始,在触发特定条件下,语音助手通过预置的情感语料库与用户聊天,但在真实聊天场景下无法适应人类的对话逻辑;而车载Agent上车后,通过集成多个大模型底座,对环境的识别更为准确,更多数量的工具库接口则进一步加强了其泛化能力,能够应付多元化场景下的聊天问答,真正实现“座舱代言人”的温暖陪伴。
部分Agent在不同场景下的情感关怀示例
整理:佐思汽研
主流的情感交互场景的设计重点在情绪识别、用户记忆、行为编排等领域,部分主机厂、Tier1也推出了提升Agent情感价值的技术或产品:
部分主机厂、Tier1的Agent情感技术/产品
整理:佐思汽研
以小爱同学为例,其“情感对话系统”的构建包含三个步骤:
小爱同学“情感对话系统”构建步骤
整理:佐思汽研
混合策略疏导模型包含情感状态增强编码器、混合策略学习模块、多因素感知解码器三个重要组件
来源:小米
马耳他大学数字游戏研究所提出了情感框架(Affectively Framework),设立情感模型,在训练过程中采用行为奖励和情感奖励机制,帮助 Agent 更好地理解人类的情感,并能够与人类进行更自然的交互。
基于情感奖励的情感框架
来源:马耳他大学数字游戏研究所
提升用户体验需要解决的痛点
理想同学对车主景点推荐需求的响应(被动推荐)
来源:理想
虽然现阶段已上车的Agent大部分还停留在助手、陪伴以及具体场景功能列举层面,但相比于大模型,Agent拥有更大潜力,具备可激发的自主性和突出的工具使用能力,更加贴合“主动智能”标签,甚至能够弥补大模型在实际应用中的限制。
大模型与Agent的部分区别
整理:佐思汽研
然而,要让车载Agent真正做到“主动智能”,满足用户的体验价值,在技术开发上还有很长的路要走。Agent需要在主动感知、数据处理、状态识别等环节做得更加精确,通过准确理解环境,判断车内人员的真实需求,再根据不同环境采取不同的策略。其中,难点之一在于Agent对用户需求的准确判断,相比正常情况下的被动交互,主动意图识别缺少语音指令,而在环境/人员/车辆状态识别的过程中,未必能够通过向量特征匹配得到与当前场景极为相近的描述,预置方案也未必符合车内人员真正的意图。
主动推荐动作的生成示意图
来源:佐思汽研
目前,多数推荐功能仅仅是执行预设的指令,反而限制了Agent的“主动智能”能力,导致在推理环节频繁出现痛点。例如,如果Agent不能准确理解当前的场景,它就可能做出不符合用户预期的推荐,比如在错误的时间推荐音乐或导航等。最终结果就是影响用户体验,导致Agent成为用户眼中的“猜测机器”。
Agent“无效推荐”案例1
Agent“无效推荐”案例2
整理:佐思汽研
此外,Agent在接受语音指令的感知环节同样也有痛点,如佐思汽研非完全统计了部分车主对于使用车载Agent的使用痛点案例,频率较高的痛点主要为唤醒失败、识别错误、误唤醒。
不完全统计下的车载Agent使用痛点分析
整理:佐思汽研
在120个痛点案例中,唤醒失败、识别错误、误唤醒的提及频率分别达到19、18、17个,占比分别为16%、15%、14%,其他痛点还包括不支持可见可说、不识别方言、延迟响应、不支持语义澄清、不支持连续指令等,共计89个语音环节的痛点,占本次统计调研的74.2%。
此外,Agent架构/场景设计不合理导致的一系列问题还包括场景触发条件不合理、大模型需要二次唤醒、长/短期记忆失效、根据车主习惯自主做出的推荐动作不符合预期等,分别体现了Agent在场景设置、架构部署、记忆模块、反思模块上的限制。
推理:“睁眼瞎”(物体识别错误)、“乱推荐”(自主推荐不符合用户预期)等。
快速响应的多Agent框架
蔚来Nomi Agent采用多智能体架构
来源:蔚来
相比单Agent系统,多Agent系统更适合执行复杂的指令,就像一个小型社区,每个“Agent”都有自己的任务,但它们又能协作完成更复杂的工作。比如,一个Agent负责理解你的指令,另一个负责决策,还有专门的Agent来执行任务。这种设计让车载AI Agent系统更加灵活,能够处理更多样化的任务。如澳大利亚联邦科学与工业研究组织(CSIRO)提出一种同时采用协调Agent和执行Agent的多Agent系统:
一种多Agent系统框架示例
来源:CSIRO
整个Agent框架分为6个模块,分别为感知交互(Understanding&Interaction)、推理(Reasoning)、工具使用(Tool Use)、多Agent协作(Multi-Agent Collaboration)、反思(Reflection)以及价值对齐(Alignment),囊括了主流的Agent设计模式,包含从主动感知、推理决策、工具调用到生成执行、反思迭代并与人类价值对齐的整个流程。该框架的特点是引入多Agent系统,可由不同的Agent分别担当整个流程中分发/决策/执行的不同角色,充分发挥各个Agent优势,提升任务执行的效率。
此外,在多元化场景下,Agent部署方式和工具调用能力也影响着用户需求是否能被快速、准确的执行。以蔚来Nomi为例:
Nomi Agents分别在端侧、云端两个部分进行部署,端侧与云端分别搭载端侧模型与NomiGPT,端侧模型与SkyOS深度融合,能够及时调用原子能力,进行跨域资源的调度(如数据、车控硬件/软件等),加快响应速度;云端Nomi GPT连接更多云端工具资源接口,进一步加强Nomi Agents工具调用能力。Nomi Agents架构布置在SkyOS中间件层,通过与SkyOS结合,调用原子API、硬件/软件、数据的过程更加自然协调、也更加迅速。
Nomi Agents在SkyOS中的布置
来源:蔚来
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-03-30
2024-05-09
2024-07-07
2024-07-01
2024-06-24
2024-07-23
2024-06-08
2024-06-05
2024-06-21
2024-07-11
2024-11-12
2024-11-11
2024-10-29
2024-10-22
2024-10-18
2024-10-16
2024-10-15
2024-10-10