我要投稿

深度解读大模型最火的智能体(Agent)

发布日期：2024-06-02 08:35:15 浏览次数： 1974

前言：Copilot 和 Agent 有没有区别？

上周写了一篇文章，讲大模型两种模式，一种是 copilot，一种是 agent。

（还特别火，6000+的阅读，激烈的讨论，没有看过的同学可以看下。）

文章出来之后引起了讨论，有同学留言觉得 copilot 和 Agent 没啥区别，核心原因是认为，Copilot是传统软件使用AI 增强，这时被包裹成为copilot，另种形式 Agent 是AI系统（目前常见各种对话）包裹传统系统API，这时称为Agent。这两者没有明显区别，同样的实现逻辑。

其实这个是有误区的。

核心概念区别

Agent 和 Copilot 最核心区别在于是否能自主完成任务，并不是是否调用其他能力。类似自动驾驶里面的 L2，L3的区别。agent 也可以包在传统软件里面，是否包，还是独立的，不是这个核心区别。

AI Agent 是一种智能实体，它能够感知环境、进行决策和执行动作。AI Agent 通常具有自主性，能够根据给定的目标或任务，独立地进行规划、执行和反思。它们可以分解复杂任务，自我批评和自我反思，从错误中学习，并改善结果。AI Agent 可以被视为具有一定程度自主性和复杂推理能力的系统，它们可以在没有人类直接干预的情况下完成任务。

AI Copilot，另一方面，通常是指一个通过AI技术赋能的智能助手，它协助人类完成各种任务。AI Copilot 可能在特定领域（如编程、写作、驾驶等）提供帮助，通过与人类的交互来提高效率和创造力。AI Copilot 可能更多地依赖于人类的输入和指导，而不是完全自主地完成任务。

简而言之，AI Agent 更强调自主性和独立完成任务的能力，而 AI Copilot 更侧重于作为人类的助手，协助完成特定任务。AI Agent 可能在复杂性和自主性方面更为先进，而 AI Copilot 则更注重与人类的协作和辅助。

讲完概念，今天继续深度下 Agent 的架构，当前问题，业界典型范例给大家参考。

典型Agent 架构

下图是一个典型的 Agent 架构。

一个 Agent 里面核心几大块：

1、大模型：负责思考，给出执行，调用的参数。

2、能力库：外挂的各种能力，比如约会议，查文档都是调用另外的系统完成。

3、历史：主要是记录上下文

4、用户澄清：当前 Agent 比较难脱离人的检查确认，所以一般有这一步用户的确认和修改过程。

5、最终展示：有多种展示形式，卡片式，或者给自然语言展示结果。

接下来看下 Agent 实际的范例和当前存在的问题。

业界 Agent 范例

Copilot 有很多成功的范例，最出名的有 GitHub copilot，Microsoft office 365 copilot。大模型已经成功在编程，文案，创意等方向有不错的实践。

当前智能体 Agent 还处在比较早期的阶段，已经有一些比较明显的成果，当前有些典型的尝试：

角色扮演类：比如英语口语老师，情感分析大师。
创作类：各种营销文案如新媒体文章，小红书文案编写等。
办公类：ppt 自动生成，研究报告生成等。

不过总的来说特别实用的 agent 其实还没有孵化出来。

从另外一个角度思考，大模型是一个全新的领域，，从成熟度角度，可以认为：

GPU > LLM > Agent builder > Agent&Application

越是底层越成熟，也只有底层成熟了才能孵化上层的业务。因此如果要有一个比较不错的 Agent，可能需要成熟的 Agent builder。可能有又有小伙伴想知道都有哪些 Agent builder，后面找时间详解一下业界都有哪些 Agent builder各自特点是什么。

下图是 AI Stack 典型技术栈，给忘记的同学回顾：

当前Agent 存在的问题

人工智能大牛吴恩达是 Agent 的拥趸，先简单回顾吴恩Agent 四范式：

Reflection（反思）：类似于AI的自我纠错和迭代。例如，AI系统会检查自己编写的代码，并提出修改建议。
Tool Use（工具使用）：大语言模型调用插件，扩展了其能力。例如，使用Copilot进行联网搜索或调用代码插件解决数理逻辑问题。
Planning（规划）：AI根据用户输入的任务，拆解流程、选择工具、调用、执行并输出结果。例如，根据一张图片中的姿态生成一张新图片，并进行描述。
Multi-agent（多智能体协作）：多个Agent协作完成任务，每个Agent可能扮演不同的角色，如CEO、产品经理或程序员。这种模式模拟了现实生活中的工作场景，能够处理复杂系统

Agent大家未来肯定看好，但是 agent 当前还是存在比较多的问题，仍能需要工业界持续去改进。

性能问题

传统互联网产品性能都是毫秒级，调用大模型需要等待的时间较长，一些场景下用户不愿意等待的。

效果问题

纯大模型很难上线，还要套用规则或者其他一些手段补充和弥补

成本问题

业务真实场景下，调用大模型成本还是很高。

multi-agent 还没有起来

没有把多个 bot组织起来，快速构建大量的智能体。吴恩达认为多agent 效果会很好，但是怎么组合调用，还没有看到很好的成果经验。

总的来说，前途是光明的，道路还是曲折的。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

2024-09-20

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

AI软件必须用GPU么？

2024-09-18

ChatGPT有三个快捷指令和三个模式，你知道吗？

2024-09-17

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

疯狂星期四Qwen2.5开源，通义成了最Open的AI?

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示