我要投稿

连载 | AI-Agent正本清源&机会展望（上）

发布日期：2024-08-20 05:36:10 浏览次数： 1846 来源：Cyber Odyssey

目录
一、Agent的前世今生：
1.1 地中海哲学启蒙与概念化阶段（公元前700年左右）:古希腊时期的智能机器设想
1.2 冷兵器时代工匠的机械迷思阶段（公元1500年-公元1800年左右）:中世纪手工艺的巅峰
1.3 电气时代探索与规则基础阶段（公元1950-2000）：图灵测试与早期AI程序
1.4 互联网、大数据孕育下的AI-Agent阶段（公元2000-今）：具备自主决策的通用型Agent涌现
二、Agent相关的基本概念：
2.1 Agent的定义描述
2.2 Agent的主要组成部分
2.3 Agent的人机协同模式
三、Agent的讨论框架及现状分析：
3.1 Agent的讨论框架
3.2 Agent现状分析
3.3 Agent发展展望

背景：
定义不够清晰: 在本轮LLM催化的AI浪潮下，技术学界、投资界、企业产业侧无一不提到“Agent”这个词，但是实际上定义是存在一定混淆的，Agent、AI工具、智能体、Bot、ai原生应用等等名i经常被混为一谈，导致“Agent”被滥用。
未形成讨论框架： 本文尝试梳理一个关于“Agent”的框架，给到读者一个较全面的视角，便于在不同语境去做“Agent”相关的讨论，减少context前置对齐的损耗。

开胃小菜，先从字面出发看“Agent”起源：

“Agent”这个词源于拉丁语中的“agere”，该词在拉丁语中表示“行动”或“做”。随着时间的推移，“agere”派生出了不同的词汇，其中之一就是“Agent”
具体地说，“Agent”这个词是通过在“agere”后加上后缀“-nt”形成的。这个后缀通常用于表示执行某种动作或行为的人或物。因此，“Agent”字面上的意思就是“执行行动的人”或“行动者”
在英语中，“Agent”一词具有多种含义，包括代理人、经纪人、特工、作用物等；这些含义都围绕着“行动”或“做”的概念展开，与词根“agere”的含义密切相关

=> 所以“行动”是Agent的核心之一，可以先记住这一概念。

一、Agent的前世今生

Agent的历史发展是一个从哲学思想启蒙到现代人工智能实体落地的漫长过程,上个世纪50年代、甚至中世纪已有Agent的影子，以下将详细回顾AI Agent的发展历程，展示其从理论探索到实际应用的演变。

1.1 地中海哲学启蒙与概念化阶段（公元前700年左右）:古希腊时期的智能机器设想

人工智能、机器人和自动物体的概念最早出现在古希腊诗人赫西俄德和荷马的作品中，他们生活在公元前750年至650年之间，赫西俄德在公元前700年左右首次提到塔罗斯的故事，这是机器人最早的概念之一。

“The myth describes Talos as a giant bronze man that Hephaestus, the Greek god of invention and blacksmithing, built. Zeus, the king of Greek gods, commissioned Talos to protect the island of Crete from invaders. He marched around the island three times every day and hurled boulders at approaching enemy ships”

在传说中，塔洛斯是希腊工匠之神赫菲斯托斯建造的一个巨大的青铜人；众神之王宙斯命令塔洛斯保护克里特岛不受入侵者侵犯；他每天绕着小岛走三圈，向靠近的敌舰投掷石块。

在巨人的核心部位，一根管子从他的头部一直穿到到他的一只脚，管子里有众神赋予的神秘生命之源——希腊人称之为“灵液”；另一篇可以追溯到公元前三世纪的古代文献《阿耳戈英雄纪》描述了美狄亚女巫如何通过拔掉塔罗斯脚踝上的一个螺栓、让灵液流出，从而打败他。

提到“Tars”这个名字，是不是感觉在哪听过？是的，在全民皆知的诺兰神作《星际穿越》中，陪伴男主驾驶飞船穿越无尽黑洞的机器人正式叫“Tars”（诺兰埋下的一颗致敬彩蛋）

古希腊哲学家亚里士多德曾想象过机器人的功用，他写道：“如果每一件工具被安排好甚或是自然而然地做那些适合于它们的工作……那么就没必要再有师徒或主奴了”。

1.2 冷兵器时代工匠的机械迷思阶段（公元1500年-公元1800年左右）:中世纪手工艺的巅峰

中世纪机器人是指在中世纪时期，人们设计和制造的自动机械装置；这些装置通常用于展示技术成就、娱乐或宗教仪式；以下是一些中世纪机器人的例子：

达芬奇的骑士：达芬奇设计的一个全身装备铠甲的骑士，可以通过外部曲柄和链条驱动，做出站立、坐下、转头等动作
机械修道士：16世纪由Juanelo Turriano制造的机械装置，高约15英寸，能够行走、点头、祈祷，至今仍被陈列在华盛顿的史密尼森博物馆
阿尔·杰泽里的漂浮乐队：一个水动力驱动的机械乐队，包括竖琴家、笛手、鼓手等，可以在湖面上演奏音乐
银天鹅：1773年制造的鸟类机械装置，由钟表三件套部件控制，能够游泳和“吃”鱼

中世纪机器人的设计和制造展示了人类对自动机械的早期探索和创新精神。尽管这些装置在技术上可能不如现代机器人复杂，但它们在历史上的地位不容忽视，为后来的机器人技术发展奠定了基础。

1.3 电气时代探索与规则基础阶段（公元1950-2000）：图灵测试与早期AI程序

1950年，图灵提出了“图灵测试”，成为衡量机器智能的重要标准；1956年，达特茅斯会议上，NLP领域正式确立为一个独立的研究领域；

美国麻省理工学院人工智能实验室的德裔电脑科学家Joseph Weizenbaum则是在1964年至1966年期间打造史上第一个聊天机器人“Eliza”：

基于当时计算技术的水平，维森鲍姆认为，实现人机之间对话的最佳方式是模仿精神分析的方法，即利用重复结构，让程序重复单词并重新表述以问题形式给出的陈述；Eliza，只不过是一个简单小程序，可以在36比特架构的IBM 7094计算机上运作。执行过程中，Eliza通过分析输入的文字内容，将特定字句重组，变成全新的字句输出。程序只有200条左右的代码，通过一个名为DOCTOR的脚本，可以以极类似心理学家的方式与人类交谈

Eliza聊天机器人是这一时期的代表作，它使用模式匹配技术来模拟心理治疗师的角色，图灵测试和Eliza聊天机器人的出现标志着AI从理论探索向实际应用迈出了重要一步，展示了基于规则的系统在模拟人类智能方面的潜力，在人工智能领域，这一术语被赋予了一层新的含义：具有自主性、反应性、积极性和社交能力特征的智能实体，给人一种被机器听到了和理解了的错觉

20世纪90年至21世纪初，美国科学家兼慈善家休·勒布纳（Hugh G. Loebner）1990年设立了勒布纳人工智能奖（Loebner Prize）在该奖项的激励下，聊天机器人智能化进程全面提速，诞生出了基于NLP“统计模型的阿尔伯特一号（Albert One）、爱丽丝（ALICE）及埃尔伯特（ELBOT）等典型代表

其中的三次问鼎勒布纳奖的ALICE，被视为当时智能化程度最高的聊天机器人。不过她无法与人维持长时间对话，因此最终未能通过图灵测试

1.4 互联网、大数据孕育下的AI-Agent阶段（公元2000-今）：具备自主决策的通用型Agent涌现

互联网的普及 提供了海量数据，促进了机器学习的发展；Google、Amazon等科技巨头开始投入巨资于AI研究，推动了深度学习等技术的飞速发展
深度学习技术的突破： 为AI-Agent的发展带来了革命性的进步；AlphaGo战胜围棋世界冠军李世石，展示了深度学习在复杂决策问题中的巨大潜力
大语言模型路线的验证（Scale Law）：赋予了AI系统更强的语言理解和生成能力，GPT系列模型和ChatGPT等模型在自然语言处理领域取得了重大影响

大模型的出现，一定程度上解决了原先“图灵测试”的问题，很好的让多轮对话体验突破了人类交流的拐点，所以在2022年末chatgpt成为了炙手可热的爆款，上线短短两月获1亿月度活跃用户，成为历史上增长最快的面向消费者的应用，业内开始将目光重新聚焦Agent，探索本轮技术革命下是否能够解锁

二、Agent相关的基本概念：

2.1 Agent的定义描述

能够感知环境、进行决策和执行动作的智能实体，通常基于机器学习和人工智能技术，具备自主性和自适应性，在特定任务或领域中能够自主地进行学习和改进的人工智能代理

2.2 Agent的主要组成部分

在LLM赋能的自主agent系统中(LLM Agent)，LLM充当agent大脑的角色，并与若干关键组件协作.

规划（planning）

子目标分解：Agent将大任务拆分为更小的可管理的子目标，使得可以有效处理复杂任务
反思与完善：Agent对历史动作可以自我批评和自我反思，从错误中学习并在后续步骤里完善，从而改善最终结果的质量

记忆（Memory）

短期记忆：上下文学习即是利用模型的短期记忆学习
长期记忆：为Agent提供保留和召回长期信息的能力，通常利用外部向量存储和检索实现

工具使用（tool use）

对模型权重丢失的信息，Agent学习调用外部API获取额外信息，包括当前信息、代码执行能力、专有信息源的访问等

行动（Action）

行动模块是智能体实际执行决定或响应的部分。面对不同的任务，智能体系统有一个完整的行动策略集，在决策时可以选择需要执行的行动，比如广为熟知的记忆检索、推理、学习、编程等

2.3 Agent的人机协同模式

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理，还将改变人机协同的模式，带来更为广泛的人机融合；生成式AI的智能革命演化至今，从人机协同呈现了三种模式：

嵌入模式：用户通过语言交流与AI合作，使用提示词设定目标，AI协助完成任务，比如用户使用生成式AI创作小说、音乐作品、3D内容等。在这种模式下，AI执行命令，人类是决策者和指挥者
副驾驶模式：人类和AI是合作伙伴，共同参与工作流程。AI提供建议、协助完成工作，比如在软件开发中为程序员编写代码、检测错误或优化性能；AI是知识丰富的合作伙伴，而非简单的工具
智能体模式：人类设定目标和提供资源，AI独立承担大部分工作，人类监督进程和评估结果。AI体现了自主性和适应性，接近独立行动者，人类扮演监督者和评估者的角色。智能体模式比嵌入模式和副驾驶模式更高效，可能成为未来人机协同的主要模式

在Agent的人机协同模式下，每个普通个体都有可能成为超级个体，拥有自己的AI团队和自动化任务工作流。他们可以与其他超级个体建立更智能化、自动化的协作关系。现在业内已经有一些一人公司和超级个体在积极探索这一模式.

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

一文带你了解大模型——智能体（Agent）

2024-05-28

全面对比dify、coze、streamlit、chainlit

2024-04-26

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

50+个AI大模型在不同领域的应用案例

2024-08-04

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

OpenAI o1与GPT4o的对比分析

2024-09-23

Claude中国官网正式上线！1:1还原官网，非套壳，国内直连

2024-07-18

“大数据+”医疗

2024-04-11

大家都在问

2025 AI Agent迷局：谁在玩真的，谁在演戏？

2025-01-10

杨芳贤｜AI 2.0时代，如何拥抱与驾驭大模型？

2025-01-09

深度长文｜AI的“巴别塔”：多Agent协同为何如此之难？

2025-01-09

2024年全年，大模型中标项目被谁拿走了?

2025-01-06

谷歌CEO : 大模型的低垂果实已经被摘完了，如何挖掘大模型的剩余价值？

2025-01-02

“卷王”豆包上桌，压力给到了谁？