AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


字节Coze平台快速手搓个人Agent
发布日期:2025-01-06 20:37:39 浏览次数: 1632 来源:橙页交互


因为一直听说字节的Coze扣子平台做的不错,所以有空来了解了一下,并且也补充了一下Agent方面的知识,因为之前作业也对Agent没什么需求,所以这次也是从零开始。


本文结构是首先介绍一下Agent是什么,然后就是Coze平台的一些介绍和基础教程



Agent和LLM的区别

可能很多人第一反应觉得Agent是LLM(大语言模型)的一部分,只不过是更细分领域一点的。比如医疗诊断Agent,似乎就是一个专精于诊断疾病的GPT,你说症状,它给你回答。


但其实Agent才是范围更大的那个,主要的区别在于LLM给你提供信息,但是Agent可以有具体的行动。Agent更像是“一个人”。


Agent结构图(图源网络)


我们就把Agent想象成一个虚拟人,你能干什么,它就能干什么。


比如面对一个做ppt的任务,人在做事的时候,首先要有记忆板块(短期记忆和长期记忆),然后是规划板块(思考每一步骤怎么做),接着就是用工具来辅助我们行动了。


这里面,LLM就像是一个工具。Agent可以通过各种API去调用其他AI工具的功能,从而让自己完成行为。所以Agent是包含了LLM的,更智能的一个东西。Agent也因此翻译为“代理”,替代我们完成任务。



Agent的不同板块


1. 记忆

大语言模型算是Agent的大脑,里面的记忆(短期记忆和长期记忆)就像是现在很多LLM会提供上下文功能,也就是会记住你之前说过的话,而记忆又会影响我们接下来的决策。


比如这个任务之前用方法A完成的不是特别好,那么记住这一点后,下次再遇到这个任务,就可以避免重复使用方法A了。


前面我们说LLM不算Agent,因为它只是提供了文字回答,无法真正帮我们做某件事。但是提供文字规划这个功能,已经足够用来当做Agent的大脑了。它可以指导Agent后续调用什么工具,来怎样完成任务。


2. 技能

不需要我们自己去写代码来实现功能,都是调用现有的API,比如我想要Agent实时检测我选择的股票价格,肯定有现成的网站有这个功能,如果它提供API,我只要让我的Agent调用这个功能的API,就可以了。


所以我们给Agent接入API,就相当于给了它这些工具和技能,从而可以让它能真的完成我们的任务。


查询股市插件


很多时候,我们就把Agent想象成替代版的自己就可以了,如果一个API我们自己调用的时候是免费,那么Agent调用也是免费;如果我们真人使用也要收费,那么Agent调用同样收费。


3. 角色

我们可以把Agent设定成不同的角色,比如写prompt的时候我们经常会写一句,“你现在是一个专业的交互设计师”,但是对于Agent来说,并不是我们写这一句话,它就真的是一个专业的设计师了。


角色prompt


我们需要给Agent提供一个知识库,里面通常是文本信息,比如我直接把AboutFace的文字版作为知识库,那么我的Agent才真的有可能作为一个交互设计师。


4. 业务流程

这一步就需要我们去告诉智能体,任务需要怎样被完成。其实智能体就像是一个有实体、更智能的代码块。它可以读取我们给它的知识库,然后通过API使用各种工具(技能),但是说到底它也只是一个代码块,每个步骤做什么,还是要人工去告诉它的。


就比如我要Agent专门生成小红书热门文案,第一步要Agent去看对标账号的文案,需要的技能是让Agent可以上网,读取目标账号的文案;第二步就是生成相应的文案,这一步技能可以就是GPT;第三步再生成一个配图,需要的技能就是各种AI生图的平台了。


当我们把整个流程都给Agent设定好之后,需要的技能API也都提供给Agent,那么Agent就可以开始“代替”我们自动开展这些步骤了,只要我们输入对标账号的名称,Agent或许就可以返回给我们相似的文案+配图。



Coze平台

Coze平台首页


首先来到扣子Coze平台的首页,有中文版和国际版(魔法),国内版比较方便,国际版的模型可能能力更强一点,但作为初学者,国内版也完全够用了。


你可以来到商店,看看其他人都搭建了怎样的Agent,也可以给我们一些启发,不要把自己的Agent局限在一个专业的GPT概念下。


Agent商店


一个模拟产品经理的Agent


比如里面单人剧本杀Agent,还有模拟产品经理的Agent,都非常有创意,有点类似于一个新形式的互动游戏,当然你也可以把它做的很有实际作用。


公众号配图Agent


比如这篇文章里前面的插图,就是我找了其他人搭建的公众号配图Agent,把我的文字内容发给它,它就可以首先提取我的大纲,然后联想需要什么样的图片,再自动生成生图的prompt,调用SD帮我直接出图。


所以这个过程可以看出Agent的代理功能,它就是一个自动运行的代码块,可以自动执行这些本来需要我们人自己做的流程。


那么以上就是Coze平台第一个特点,可以使用其他人公开的Agent,来帮助我们提高工作效率。商店里也对Agent进行了分类,可以根据需要找不同类别的Agent。



如何搭建个人Agent

创建Agent


标准创建 or AI创建


首先在首页创建个人的Agent,这里标准创建就是一切都从零开始AI创建就是你大概描述一下你的Agent需要实现什么功能,后续的工作区就会先帮你配置好大概得框架,你可以在基础上修改。新手推荐使用AI创建。


初始工作区


进入Agent创建的主页面,主要分为三列。左边是类似GPT输入的prompt,用文字描述你想要的效果,不需要代码。中间就是前面提到的Agent的记忆、工具、知识库配置了,技能就是你允许Agent调用的API。


因为以前这些功能插件都是单独开发的,比如A开发一个爬取网页的插件,B开发一个获取用户定位的插件,如果我想要Agent使用这些功能,需要自己去网上搜罗各种公开或付费的API,但是现在平台一般都帮你集成好了上百个这种功能插件,你只需要选择你想用的API就可以了。这样一来也有小公司找到了机会,就是专门去做这些供Agent调用的功能插件。


最右边就是Agent预览和调试了,你可以和Agent对话,看看它的输出是否符合你的要求。

AI创建的Agent工作区


如果是AI创建,可以直接达到这种精度,也就是prompt和插件都帮你选择好,你在这个基础上进行修改,甚至可以直接拿去用。



工作区界面

(1)创建知识库

知识库


上传文件


知识库支持较多格式的文件,通常是文字和图片,甚至连Notion的笔记都可以上传,应该可以作为个人学习助手Agent之类的。


上传文档


文档处理设置


作为知识库上传的文档需要经过一些处理,通常没有特殊需求就保持默认即可,点击确认平台就会开始数据分段之类的,总之这一步不太需要操作。


添加知识库


总之平台完成数据处理后,就可以点击“添加”,作为我们Agent的知识库了。


在工作区可以看见我们上传的文档


关于知识库也顺便提一嘴,你的Agent并不是只能读取知识库里的资料,如果被问到了知识库里没有的东西,它也会上网搜索,只是效果可能没那么好。


(2)添加插件

添加插件


也就是给Agent配备工具和技能,这里也支持AI配置,也就是根据你在工作区左侧一列的prompt设定,自动选择你可能需要的插件。


插件商店


也可以手动挨个选择插件,选择质量更好的插件。添加后,如果想对插件列表进行修改,鼠标hover在插件上面,就可以修改插件具体的参数,或者删除插件了。


(3)对话体验

开场白设置


这一块是比较简单直观的,就是设置你的Agent的开场白、推荐选项、语音等,设置起来也比较简单。


(4)工作流

添加工作流


创建工作流


基础工作流


工作流界面就是我们熟悉的节点式UI了,这里基础会提供一个输入和输出的节点,最基础的把两个连接起来,在输入节点修改变量名称,在结束节点选择你要输出的变量即可。


这样连接起来,功能就是你输入了“ABC”,输出原封不动的把“ABC”再输出给你。


这里只是先跑通一个节点的流程,接下来就是进阶的工作流创建。


添加插件节点


稍微进阶的工作流就是你可以在里面添加各种插件功能,底部也默认提供了一些常见的节点,比如总结输入的文字段落大意等。


总结段落大意的插件节点


比如这里我添加了一个总结输入文字大意的插件,那么我选中这个插件节点后,首先要把输入的变量选择为开始节点的input变量名称。


这里跟ComfyUI不同的是,不是把节点连接起来就可以,而是还需要在节点设置里,选择相应的变量名称,这个节点才知道自己要处理的信息是什么。


设置输出变量


那么同理,在结束节点的设置里,我们需要把output的变量选择为上一级插件输出的变量。


试运行


经过简单设置后,我们点击底部的“试运行”,就可以达到简单的“总结输入段落”的功能了,那么这样一个工作流也就创建完成了,点击“发布”就可以增添在我们的Agent里了。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询