我要投稿

汽车AI Agent实践思考

发布日期：2024-08-18 10:30:35 浏览次数： 2190 作者：汽车AI助手

AI Agent定义

AI Agent是一种能够感知环境、具备记忆、进行任务规划、执行动作的智能体。大语言模型（LLM）的发展使得AI Agent在智能化、自主性方面有了提升的潜力。因此，AI Agent从广义上可以理解为具备自主智能的生命体，狭义上可以理解为基于LLM智能化的应用层。非行业内的人接纳的是广义的概念，但回到产品落地的角度，能够带来商业回报的是狭义的概念。行业内对AI Agent技术的当下鼓吹有点在蹭AI Agent的名字。

AI Agent背后强大的逻辑

AI Agent的基础要素划分其实和人类解决复杂问题的方式类似。人类通过理解信息、分析问题、做出决策、结合工具采取行动、观察变化，再接着做出下一个决策和动作，以此来完成复杂任务。从这个逻辑上来说，AI Agent就是AGI（通用人工智能）的终极智能形态。大型语言模型（LLM）因为具备强大的语言能力和推理能力，以LLM为基座的AI Agent让人们对其可替代人类解决复杂问题的实际应用充满期待。

AI Agent应用的现状

根据WebArena排行榜，对LLM智能体在现实任务中的表现进行了基准测试，结果显示即使是表现最好的模型，成功率也只有35.8%，而GPT-4只有14.9%。其中最重要的原因是大语言模型容易产生幻觉和不一致性的问题，将多个AI步骤连接起来会加剧这些问题，特别是对于需要精确输出的任务。其次是性能问题，即使是表现最好的模型，如GPT-4和Gemini-1.5，在使用工具/函数调用方面仍然较慢。第三是成本问题，多次调用加循环调用的成本较高。以上是AI Agent落地实践时叫好不叫座的原因。

现在行业内对AI Agent的工程化采取Workflow的方式，原因是能够较好地与任务流结合。例如Coze、Dify、GPTs等通过提供拖拉拽的Workflow开发界面实现用户定制Agent助手，可自由选择多种模型、选择调用API工具以及支持Agent私有化部署或API调用，自由度非常高。但目前为止尚未出现过杀手级的Agent助手，其背后的原因和Agent本身的问题是一致的。

座舱助手Agent的应用

回到座舱Agent，叠加了具身智能的光环，沉浸在大模型上车的热点下，Agent也顺其自然地被反复提及。但这里依然要区分广义概念和狭义概念，广义的概念类似AGI超级智能体，而在工程化时我们要面对现实。大模型上车后，Agent的能力被放在云端的架构中其实质是Chatbot（具体架构图见下图），并没有感知、记忆、规划、工具的全能力，而只是应用了规划和工具的能力。新概念的植入并不会一定带来体验的变革，路还是要一步步走，不要被概念误导。