我要投稿

AI界疯狂推出新产品：大模型应用知识梳理

发布日期：2024-08-29 09:49:59 浏览次数： 2532 作者：LitGate

一、前言

最近AI界有点疯狂，有可能想抢楼市的风头。

各大平台三番两头发布新产品，五花八门的名字，记不住简直记不住。

腾讯系：腾讯元宝（原混元助手）、腾讯元器。

字节系：豆包（cici）、扣子（coze）、小悟空、chitchop、Dreamina、CodeGen、猫箱（原话炉）、Gauthmath、海绵乐队、豆包大模型平台。

阿里系：通义千问、阿里云百炼。

百度：文心一言、文心一格、百度。

商汤：小浣熊、商量、拟人、秒画、代码小浣熊、办公小浣熊、琼宇、格物、大医。

沉寂了很长时间的李开复也整了个万知。

……

于是乎，想给大模型的应用做一次知识梳理。

首先用一个故事把以上这一系列的产品的做个简单的介绍和分类。

二、讲个故事

AI个人助手

互联网大厂A，为了赶上人工智能这趟车，吭哧吭哧整出个大模型，因为历史技术积累还比较深厚，整出来也问题不大。

但由于训练数据量不够、强化学习不足等等原因，模型只能说勉强能用，但还需要做不少优化工作。招测评员给模型调优，太费钱了，自己干太耗时，其他友商都在飞奔，都在抢C端的入口，再慢一点就赶不上这趟车了。

算了，不管模型好坏，挨用户骂丢人也罢，赶紧推出个应用让用户使用，用户用得不爽，给模型输出的答案来个差评，大量用户的反馈，还可以加速模型调优。

于是乎，各大产商纷纷推出C端个人助手应用，文心一言、腾讯元宝、Kimi、百小应、豆包、通义千问……。字节比较猛，整出十几个APP，用于聊天、生图、教育等等。不同场景来个应用，也就在不同领域有不同的用户任务，这样模型还能学习到不同任务的共同特征和特定特征。

大模型平台

个人用户做个对话啥的还勉强能用，但拿这大模型给企业客户，够呛。于是，在内部找几个团队做验证。

内部合作过程中，对接的团队发现，模型输出结果不符合要求、OpenAPI能力不全、效果测评太麻烦等等问题。然后这些问题反馈到AI团队，团队猛然发现，未来大模型商业化，面对外部客户一样也会出现这些问题。

于是乎，开始搭建大模型平台，内外部客户都可以在平台上做模型微调、强化学习、测评等等。有了这个平台，确实方便很多。

智能体

研发大佬们接入大模型之后，发现除了生成文章、画个图，好像也没解决实际问题。

于是乎开始定位问题，是模型本身的问题？用的姿势不对？

最后发现，都有问题。比如提示词写得不好、大模型行业领域知识不足、大模型不太会做数学运算、大模型不会生成PDF、不能访问互联网数据等等。

活跃在互联网社区的研发大佬们，在自己折腾大模型应用的时候，开始寻找解决问题的方法。

有独无偶，有人发现了个宝藏框架“LangChain”，这框架竟然可以将大模型、外部环境的工具、数据集串起来，实现大模型原本不具备的能力。

比如“搜索明天深圳去杭州的航班”，接入旅游网站的API接口就实现了。

比如“让模型基于法律条款，撰写专业的合同”，提炼一些法律知识，然后再输入给模型，竟然写出来的合同比原来专业很多。

甚至还可以把模型作为大脑，实现某个任务的规划和执行，比如上面两个例子串联起来，“我明天要去杭州谈生意，先给我提供航班信息，然后基于法律知识和合同模板，给我撰写一份与客户签订的合同。”

大佬们一查，原来这玩意叫Agent，由感知观测单元 (Sensor)、记忆检索单元(Memory)、推理规划单元(Planner) 和行动执行单元(Actuator)构成。

但是“代理”，不好听，于是想到蔡自星院士提出的一个概念“智能体”，以这个概念作为中文名称，是不是一下子高大上很多。

故事讲完了，整个脉络应该也比较清晰了。

下面以LLM目前能力释放的情况，看看智能体、AI个人助手、大模型平台的关系。

三、原理拆解

智能体

腾讯元宝、Kimi、文心一言等个人助手，本质上就是个智能体应用。通过个人助手感知用户的文本、语音、图片等信息。

将接受到的信息，通过大语言模型进行任务规划和决策，有时候个人助手会调用外部网站资料，就是LLM的规划决策能力之一。然后开始执行行动，查找资料、生成图片、输出文字等等。

目前个人助手的核心能力是对话，在这个基础上，可以引入更多的部件，增强特定场景的能力（一定程度上可以理解为增强通用能力）。

比如加上RAG检索能力，支持上传文档，就可以补充领域知识，满足个人学习、分析、总结等场景。接入搜索引擎的知识图谱索引，就能实现联网

搜索结果输出。

理论上个人助手可以接入任何的内容，想象空间非常大，尤其是元宝，在腾讯生态内成长，很是期待它未来的形态。

或许，元宝可以成为C端非常大一统的重要入口，背后连接搜索引擎、生活O2O、影音娱乐、智能家居等。

智能体平台

大模型本身并非全能高手，有许许多多的能力它并不具备，但它的大脑确实非常强大，尤其是在规划、推理和语言输出方面尤其明显。要把这个大脑利用起来，还需要给装上各种”零部件”，才能充分发挥它的能力。

智能体就是很好的解决方案。

智能体（Agent）是一种能够感知环境、进行决策和执行动作的智能实体。Agent具备通过独立思考、调用工具去逐步完成给定目标的能力。有LLM作为其大脑之后，Agent更是具备了对通用问题的自动化处理能力。

我们用一个例子来演绎智能体的工作原理。

提出目标任务

拆解目标任务

将这个目标进行拆解：

识别每个步骤可能遇到的问题，并尝试给出解决方法。其中有一些解决方法，是大模型本身不具备或者比较薄弱的能力。

设计工作流程

将以上目标任务，具体为智能体运行的步骤。

环境：用户上传某公司的财报PDF文件，并写下一段文本“请根据某公司的财报，输出一份财务分析报告给我”。
感知：智能体的前端代理获取到环境信息，传达给LLM。
规划：LLM对目标进行理解、规划、指定执行步骤和需要用到的工具。
行动：

将PDF内容进行解析，传给LLM识别财务数据，并根据我们的定义的财务指标，撰写成计算公式，或者代码段。LLM并不太会做数学运算，但是可以根据我们的要求依样画葫芦，让它输出代码段，用于后续的计算。
将代码段给第三方的代码解释器，运算之后得到我们要求的财务指标结果。
将财务指标结合我们一些高质量的分析报告，一起给到LLM，给LLM一些要求，让LLM生成分析报告，LLM就开始吧啦吧啦写文章了。
文章写完之后，给到第三方文本转PDF插件，转化成PDF文件。
给用户一份完美的财务分析报告PDF文件，任务结束。

记忆：将本次任务的对话、使用到的工具进行总结，并保存到记忆模块，有利于后续执行类似的任务。

这个简单的任务就设计完了。

但是，难道每实现一个任务目标，都要自己写代码搭建智能体？这一点都不智能啊。

目前已经有多智能体平台，可以在上面低代码甚至无代码完成各种任务搭建，比如字节扣子、百度APPbuilder、腾讯元器、讯飞星火等。

这些智能体平台目前来看能力差不多，基本上都包含几个组件库：模型库、知识库、插件库以及工作流编排。

字节的Coze能力相对丰富一些，比如知识库最近已经支持图片、表格，让更多保存形态的知识接入智能体中，以满足更多工作或生活上的需求，比如设计师的需求、数据分析师的需求。

智能体的结构示例如下，一整套的能力模板都已经提供给我们了，只需要根据场景需求，替换不同的知识库内容、工具选择、Prompt模板即可。

智能体的应用

toC

1. 智能体平台极大降低了个人利用大模型创造应用的门槛，让众多有点子的个人快速创建小应用，可以极大地丰富AICG的应用生态，越来越多的对生活十分便利的应用将被创造出来，个人助手的应用场景将越来越丰富。

2. 接入更多的应用作为智能体的工具集，比如生活O2O、旅游网站、影音娱乐，应用在生活各个领域中，为个人提供便利。

3. 智能体接入外部设备，丰富与人交互的场景和形式，比如接入智能家居、儿童玩具、教学用具等等。

toB

1. 智能体平台可以让企业以相对较低的开发成本，快速接入LLM，并应用于自己的软件中，越来越多的项目将可能被快速落地。

2. 内部流程优化：将内部流程与智能体结合，充分利用智能体的规划和执行能力，提高自动化能力。

3. 生产力工具优化：智能体与各产业的生产力工具结合，包括创作、编程、数据分析等，提高企业内部生产力。

4. 社会与公共：智能楼宇、消防安全、环境监测。

随着更多的业务场景接入智能体，还需要智能体平台有更多的能力释放和感知能力——将能力以API形式供外部企业接入，同时支持更多的感知模块（如视觉、声波、温感等）。

智能体平台

百度千帆智能体：https://appbuilder.cloud.baidu.com/

字节扣子：https://www.coze.cn/

腾讯元器：https://yuanqi.tencent.com/

讯飞星火：https://xinghuo.xfyun.cn/botcenter

Dify：https://cloud.dify.ai/explore/apps

Fast：https://cloud.fastgpt.in/

大模型平台

大模型平台提供了模型选择、模型调优训练、模型测评、模型部署等服务，让个人或企业可以在平台上一站式获得最终模型。

对灵活性要求更高的深度集成客户，大模型平台将这些能力通过PaaS的方式，抽象出API，供客户调用。

目前大模型平台的核心还是在于帮助客户提高应用领域的适用性，这是一切项目落地的前提。除了微调、强化学习等方法之外，大模型厂商在确保基座模型通用性的基础上，还要想方设法通过其他技术增强领域能力。

最近体验各个大模型产品，相比之前，输出质量又提升了一个层次。所采用的技术包含但不限于以下几种：

通过prompt工程组织输入输出内容，优化query理解，以增强信息检索效率和准确性。

Prompt改写：将用户输入的内容进行改写补全，比如对困惑度较高的词替换成准确的词。
索引增强：将用户输入的内容结合LLM的回复和知识库进行增强。（eg：如何不被蚊子叮？->将问题给LLM回复“点蚊香或电蚊液；装蚊帐；保持下水道卫生”->到知识库查询资料提取相关信息->给LLM做最终的回答）。
任务分解：将用户的问题分解成更简单的子问题，用思维链等方式将复杂问题拆解成多个子问题，再依次解答每一个子问题。