我要投稿

车载AI Agent产品开发：如何通过大模型实现“座舱代言人”？

发布日期：2024-09-07 20:00:53 浏览次数： 2806

作者：佐思汽车研究

微信搜一搜，关注“佐思汽车研究”

佐思汽研发布《2024年车载AI Agent产品开发与商业化研究报告》。

根据OPEN AI对AI的分类方式（共5个级别），AI Agent位于AI发展路径的第3个级别：

OPEN AI对AI的分类方式

来源：OPEN AI

而2023年大热的大模型受限于交互方式与工具使用能力等，最多也只能达到L2推理者的级别。对比下来，通过构建车载Agent来发展汽车AI体系是一个较为合适的目标：Agent通过主动智能特性与多类工具/大模型调用，补全大模型在场景应用中的痛点，进一步提升座舱智能化水平。

Agent是情感座舱代言人

“情感座舱”的口号已经喊了很多年，但是真正实现还是从大模型上车开始，在触发特定条件下，语音助手通过预置的情感语料库与用户聊天，但在真实聊天场景下无法适应人类的对话逻辑；而车载Agent上车后，通过集成多个大模型底座，对环境的识别更为准确，更多数量的工具库接口则进一步加强了其泛化能力，能够应付多元化场景下的聊天问答，真正实现“座舱代言人”的温暖陪伴。

部分Agent在不同场景下的情感关怀示例

整理：佐思汽研

主流的情感交互场景的设计重点在情绪识别、用户记忆、行为编排等领域，部分主机厂、Tier1也推出了提升Agent情感价值的技术或产品：

部分主机厂、Tier1的Agent情感技术/产品

整理：佐思汽研

以小爱同学为例，其“情感对话系统”的构建包含三个步骤：

小爱同学“情感对话系统”构建步骤

整理：佐思汽研

混合策略疏导模型包含情感状态增强编码器、混合策略学习模块、多因素感知解码器三个重要组件

来源：小米

马耳他大学数字游戏研究所提出了情感框架（Affectively Framework），设立情感模型，在训练过程中采用行为奖励和情感奖励机制，帮助 Agent 更好地理解人类的情感，并能够与人类进行更自然的交互。

基于情感奖励的情感框架

来源：马耳他大学数字游戏研究所

提升用户体验需要解决的痛点

想象一下，智能座舱不仅能够听懂并执行车主下达的指令，还能预测车主的需求，就像一个贴心的私人助理，这是不是会让车主更加期待？相比于买了传统汽车后每个功能还要自己摸索一遍，谁不想要一个“动动嘴”就能帮你打理所有座舱功能的座舱“代言人”呢？Agent主打一个省时省事。

理想同学对车主景点推荐需求的响应（被动推荐）

来源：理想

虽然现阶段已上车的Agent大部分还停留在助手、陪伴以及具体场景功能列举层面，但相比于大模型，Agent拥有更大潜力，具备可激发的自主性和突出的工具使用能力，更加贴合“主动智能”标签，甚至能够弥补大模型在实际应用中的限制。

大模型与Agent的部分区别

整理：佐思汽研

然而，要让车载Agent真正做到“主动智能”，满足用户的体验价值，在技术开发上还有很长的路要走。Agent需要在主动感知、数据处理、状态识别等环节做得更加精确，通过准确理解环境，判断车内人员的真实需求，再根据不同环境采取不同的策略。其中，难点之一在于Agent对用户需求的准确判断，相比正常情况下的被动交互，主动意图识别缺少语音指令，而在环境/人员/车辆状态识别的过程中，未必能够通过向量特征匹配得到与当前场景极为相近的描述，预置方案也未必符合车内人员真正的意图。

主动推荐动作的生成示意图

来源：佐思汽研

目前，多数推荐功能仅仅是执行预设的指令，反而限制了Agent的“主动智能”能力，导致在推理环节频繁出现痛点。例如，如果Agent不能准确理解当前的场景，它就可能做出不符合用户预期的推荐，比如在错误的时间推荐音乐或导航等。最终结果就是影响用户体验，导致Agent成为用户眼中的“猜测机器”。

Agent“无效推荐”案例1

Agent“无效推荐”案例2

整理：佐思汽研

此外，Agent在接受语音指令的感知环节同样也有痛点，如佐思汽研非完全统计了部分车主对于使用车载Agent的使用痛点案例，频率较高的痛点主要为唤醒失败、识别错误、误唤醒。

不完全统计下的车载Agent使用痛点分析

整理：佐思汽研

在120个痛点案例中，唤醒失败、识别错误、误唤醒的提及频率分别达到19、18、17个，占比分别为16%、15%、14%，其他痛点还包括不支持可见可说、不识别方言、延迟响应、不支持语义澄清、不支持连续指令等，共计89个语音环节的痛点，占本次统计调研的74.2%。

此外，Agent架构/场景设计不合理导致的一系列问题还包括场景触发条件不合理、大模型需要二次唤醒、长/短期记忆失效、根据车主习惯自主做出的推荐动作不符合预期等，分别体现了Agent在场景设置、架构部署、记忆模块、反思模块上的限制。

总结说来，用户痛点较多地集中在感知与推理环节：

感知：“叫不醒”（唤醒失败）、“瞎回答”（误唤醒）、“听不懂”（识别错误）、“啥也不会”（不支持可见可说）、“耳背”（延迟响应）等；
推理：“睁眼瞎”（物体识别错误）、“乱推荐”（自主推荐不符合用户预期）等。

快速响应的多Agent框架

为实现“代言人”在座舱的全面功能，Agent在多元化场景下的服务框架设计极为重要。Agent框架构建方式较为灵活，可以采用最简单的“接收器+执行器”架构，也可以构建更加复杂的多智能体架构，其设计原则很简单：只要在特定场景下能解决用户问题，那就是好的框架设计。作为一个合格的“座舱代言人”，车载Agent除了需要像一个独立思考的个体，自己做决定、解决问题外，还要像人一样，快速、自如地采取人类的行为模式。

蔚来汽车的Nomi就是一个典型的例子。它采用了多智能体架构，在不同的场景下，调用不同的工具，通过多个分工不同的Agent履行特定职责，共同完成理解需求、决策裁决、执行任务、反思迭代的流程。多智能体架构让Nomi不仅能够快速响应，还能像人一样做出更自然的反应，与汽车的其他功能无缝融合，让体验更加流畅。

蔚来Nomi Agent采用多智能体架构

来源：蔚来

相比单Agent系统，多Agent系统更适合执行复杂的指令，就像一个小型社区，每个“Agent”都有自己的任务，但它们又能协作完成更复杂的工作。比如，一个Agent负责理解你的指令，另一个负责决策，还有专门的Agent来执行任务。这种设计让车载AI Agent系统更加灵活，能够处理更多样化的任务。如澳大利亚联邦科学与工业研究组织（CSIRO）提出一种同时采用协调Agent和执行Agent的多Agent系统：

一种多Agent系统框架示例

来源：CSIRO

整个Agent框架分为6个模块，分别为感知交互（Understanding&Interaction）、推理（Reasoning）、工具使用（Tool Use）、多Agent协作（Multi-Agent Collaboration）、反思（Reflection）以及价值对齐（Alignment），囊括了主流的Agent设计模式，包含从主动感知、推理决策、工具调用到生成执行、反思迭代并与人类价值对齐的整个流程。该框架的特点是引入多Agent系统，可由不同的Agent分别担当整个流程中分发/决策/执行的不同角色，充分发挥各个Agent优势，提升任务执行的效率。

此外，在多元化场景下，Agent部署方式和工具调用能力也影响着用户需求是否能被快速、准确的执行。以蔚来Nomi为例：

Nomi Agents分别在端侧、云端两个部分进行部署，端侧与云端分别搭载端侧模型与NomiGPT，端侧模型与SkyOS深度融合，能够及时调用原子能力，进行跨域资源的调度（如数据、车控硬件/软件等），加快响应速度；云端Nomi GPT连接更多云端工具资源接口，进一步加强Nomi Agents工具调用能力。Nomi Agents架构布置在SkyOS中间件层，通过与SkyOS结合，调用原子API、硬件/软件、数据的过程更加自然协调、也更加迅速。

Nomi Agents在SkyOS中的布置