微信扫码
与创始人交个朋友
我要投稿
LLM 即大型语言模型(Large Language Model),是一种人工智能技术,它通过训练大量的文本数据来学习语言的模式和结构。这些模型通常非常庞大,包含了数十亿甚至数千亿个参数,能够理解和生成自然语言文本。
想象一下
提示词工程
(1)专家系统 IBM 深蓝
(2)机器学习 过滤垃圾邮件
(3)深度学习 阿尔法go 卷积神经网络 - 图像识别
(4)大模型 Chatgpt 智能助手
从 hugging face 的模型列表中我们能看到,目前市面上在做的大模型的开源版本,低配版本7B占绝大多数,所以我认为从工程上来说7B+就算是场景工程使用的大模型了,当然随着模型蒸馏、压缩技术的发展,现在也涌现出越来越多可用的 2B/1.xB 模型,那么这些我认为也是我们通常意义上所说的大模型。
当然我刚才说的都是目前比较流行的文本生成大模型或者对话大模型,实际现实中还有图像、音频、多模态大模型,很多能 work 的模型不一定很大,也不一定很小,所以不是只要参数大就是大模型,还得能 work,或者说模型的网络结构设计的合理,具有突破性解决当前问题的能力,我认为都算大模型。
模型除了最近比较流行的对话模型越来越小之外,整体大模型的发展还是向着超大规模发展(或者MOE),并且模型性能(智能)也是逐级上升,说不好未来这些会被归到超级大模型里。
什么是智能体,能做哪些事情?
智能体概念可以拆分为四个部分:大模型(LLM)、思考(Brain)、感知(Perception)、行动(Action)。
想象一下,你有一个特别能干的虚拟助手,我们叫他小明。小明不是普通人,他是一个智能体,就像一个超级版的 Siri 或者小爱同学,但比他们更聪明、更有能力。
有一天,你工作特别忙,需要准备一个报告,还要处理一堆邮件,更要命的是,晚上你还有个重要的约会,需要挑选合适的衣服和餐厅。这时候,小明出现了。
(写报告)小明知道李华需要一个突出的报告来打动老板,并且记得他上次报告的风格,同时结合他的工作数据,迅速生成了一个精彩的报告草稿。
(处理邮件)小明用邮件管理系统,根据邮件的紧急程度和内容,帮李华一一回复,甚至还能帮李华筛选出哪些邮件需要他亲自回复。
(准备约会)小明根据李华的喜好和场合,推荐了几套衣服和几个餐厅,还帮他预定了位置,为他的约会做了完美的安排。
重点总结
1. 理解任务:李华告诉小明他的需求,小明通过自己的大语言模型(LLM)理解了李华的需求。
2. 规划行动:小明开始规划,他知道李华需要一个突出的报告来打动老板,也需要回复那些紧急邮件,还要为约会做好准备。
3. 记忆能力:小明记得李华上次报告的风格,也记得李华上次约会时喜欢的衣服和餐厅。
4. 使用工具:小明开始工作了,他用他的工具一个先进的文本生成器来帮你写报告,一个邮件管理系统来帮李华快速回复邮件,还有一个时尚顾问 AI 来帮李华挑选衣服和餐厅。
这就是智能体,一个能够让你的生活更轻松、工作更高效的神奇存在。
记忆是指智能体在与用户交互或执行任务过程中动态积累和存储的信息。它可以是短期的,比如记住用户刚刚输入的指令;也可以是长期的,例如记住用户的偏好和历史交互记录。
小故事
在一个阳光明媚的下午,小李在准备他的周末旅行。他记得上次去野餐时忘记带防晒霜,结果皮肤被晒伤了。这次,他决定提前列出所有必需品,包括防晒霜、帽子和足够的水。
小李还回忆起上次旅行时,他因为没有提前规划路线,结果迷路了。所以这次,他提前在网上查找了地图,标记了想去的地方,并下载了离线地图以防万一。
通过这些记忆,小李制定了一个完美的旅行计划,确保了旅途的顺利和愉快。
记忆在帮助我们避免过去的错误和做出更明智决策中起到关键作用。
知识是思考和规划的基石,它为我们提供了必要的信息和洞察力,使我们能够更有效地处理信息、做出决策,并在复杂世界中导航。
小故事
在一个小镇上,有一个叫做“智慧屋”的神奇地方。一天,居民小张想知道哪里的咖啡最好喝,他走进智慧屋进行求助。
智慧屋的主人首先在自己的“知识库”里找,就像翻家里的老相册,找到了一些咖啡店的信息。但这些信息可能有点旧了。
大模型的决策能力、推理和规划是其在复杂任务中表现的关键因素。
推理能力(Reasoning)
计划制定(Plan Formulation)
计划反思(Plan Reflection)
小故事
在一个晴朗的周末,小明决定去郊外的农场体验生活。他首先确定了目标:体验农活,亲近自然。然后,他开始规划路线,准备野餐用品,并检查了天气预报,发现可能会下雨,于是带上了雨伞。
如果把智能体比作一个人,感知端就如同人的五官,能够敏锐地捕捉到周围环境的变化和信息。没有高效准确的感知端,智能体就无法及时了解外界情况,难以做出明智的决策和有效的行动。
什么是多模态 LLM
多模态 LLM(Multimodal Large Language Models)是一种结合了文本和其他多种模态数据(如图像、音频等)的语言模型。多模态模型专注于从多种感知通道(如视觉、听觉、触觉等)中提取信息,并进行综合理解,该方向致力于通过多种模态输入生成新的内容,例如图像与文本结合生成描述性文字或视频,能够处理并理解多种不同模态输入的统一模型,从而提高模型的泛化能力。
人类的多模态感知为智能体感知端带来了极大的启发,人类通过视觉、听觉、触觉等多种感官协同工作,全方位地感知世界。所以智能体的感知端也应朝着多模态的方向发展,不仅能处理文本信息,还能融合视觉、听觉等多种模态的数据。
最常见的感知输入就是文本输入(提示词),文本中本身存在着各种语法结构、语义关系和上下文信息,智能体可以从大量的文字数据中提取关键信息,并进行深入的分析和理解。
假设我们有这样一句话:“月光洒在平静的湖面上,银色的光辉映照着岸边的柳树。”
这句话虽然简短,但包含了丰富的信息和感官体验:
智能体的行动端(Action)是整个智能体系统中至关重要的组成部分。它直接决定了智能体如何与外部环境进行交互,以及如何通过一系列的动作来实现其设定的目标。Action 不仅是智能体对外输出的表现形式,更是其适应和改变环境、解决问题、实现自身价值的关键手段。
这个单拿出来说了,因为在目前的互联网产品中(尤其是助手类产品),文本输出是最常见的一种方式。目前的智能体平台、智能体框架大多都是文本输出(markdown 也算)。
这个重点来说,尽管智能体底层的 LLM 拥有丰富的知识储备和专业能力,但在处理具体问题时,仍可能面临鲁棒性问题、产生幻觉等一系列挑战。而工具的引入,能够有效地弥补这些不足,工具可以在专业性、事实性、可解释性等多个方面为智能体提供有力的支持。
例如:在处理数学问题时,可以借助计算器进行精确计算;在获取实时信息时,利用搜索引擎能够快速获取最新的资讯。
工具不仅能够解决特定问题,还能极大地扩展智能代理的行动空间。通过调用语音生成、图像生成等专家模型,智能体能够获得多模态的行动方式,从而更全面、灵活地应对各种任务和场景。
具身(Embodyment)是指代理在与环境交互的过程中,理解、改造环境并更新自身状态的能力。具身行动(Embodied Action)则被视为虚拟智能与物理现实的互通桥梁,它使得智能体能够像人类一样,通过感知、行动来与真实世界进行深度互动。
通过故事再理解一下
回顾一下
大模型(LLM)是智能体的基座,提供最基本的知识和推理等能力。
思考(Brain)是智能体的灵智,可以结合记忆和知识做出规划和决策。
感知(Perception)是智能体的五官,能够接收外部的各种信息。
行动(Action)是智能体的手脚,能够通过使用工具产生更多和外界交互的行为。
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-04-11
2024-08-21
2024-07-09
2024-08-13
2024-07-18
2024-10-25
2024-07-01
2024-06-17