我要投稿

万字长文“解构”大模型：从新“智”技术到新质生产力工具

发布日期：2024-06-04 09:52:07 浏览次数： 1699

SenseTime

点击蓝字关注智研君

导语

上一篇文章《人工智能产业“智”变》（点击阅读）通过几个关键里程碑节点为大家简单介绍了AI产业发展历程，并着重探讨了AI产业从技术突破到产业普及所需要进行的阶段性战略准备。

接下来，我们探讨更为实操性的话题：技术工具化。

本文将分为两部分：

一是基础模型的能力构建。我们从OpenAI研究员Jack Rae的“压缩即智能”分享出发，以压缩器选择（模型架构）、数据准备和压缩过程（模型训练）三个角度来探讨如何“炼成”基础模型，构建技术工具化的基础。

二是基础模型的能力分解。我们从真实世界的三大实际问题出发，将模型能力进一步分解为知识（Knowledge）、推理（Reasoning）、执行（Execution）三层架构，并结合案例，分别探讨如何增强和转化每层能力，实现技术工具化的最终目标。

文章内容较长，可收藏再观看。欢迎一键三连：拍砖、转发、讨论。

作者/

杨燕商汤智能产业研究院研究主任

每一次技术突破都伴随着生产力工具的更新换代。这些新型工具不仅扩展了人类的自然力量，更是赋予了我们改造世界的能力，在提升效率、优化流程、增进体验等方面均发挥着重要作用。

例如，在刀耕火种的农耕时代，农业技术的进步催生了犁、耙、镰刀等手工农具，通过对手臂力量的增强，提高了农业生产效率，减轻了农民的劳动强度。

进入工业化发展阶段，电力技术推动了机械化生产，催生了大规模流水线式的生产组织，大幅提升了工业生产效率，使人们得以从繁重的体力劳动中解放出来，转向更为专业化和知识密集型的脑力劳动，物质和精神文明得到了空前的发展。

在当下的信息化变革时期，人工智能技术的发展正引领生产力工具的智能化革新，赋予机器模拟人类思考和行动的能力——能够像人类一样自主学习、逻辑推理，甚至进行创造和使用工具、分工协作等复杂活动。这将有助于社会生产效率在工业革命之后实现再一次质的飞跃，并推动社会生产的柔性化发展。

随着这些智能化工具的普及，人类将从日常生产活动中彻底解放出来，投身于更具创新性和创造性的活动，人类文明也将迈向新的高度。

要充分发挥当下生成式AI作为“新智”技术的潜力，将其转化为先进的生产力工具，并在社会生产活动中创造价值，我们需要深入挖掘支撑其背后的大模型能力。

基础模型的能力构建

OpenAI团队的核心研发人员Jack Rae在参加Standford MLSys Seminar时进行了一场名为《Compression for AGI》的主题分享，其核心观点即是“压缩即智能”。

他在分享中提到一个英翻中的思想实验：

假设我们枚举了所有英文单词的中文对照表，编写出了一本几千页的词典，让机器去对照词典进行逐词翻译。我们发现，在翻译过程中一旦遇到不在词典中的新单词，机器翻译就无法进行下去。但如果我们将这本词典“无损压缩”成一本几百页的手册，其中包含了语法、固定词组搭配等语言规则。虽然字数减少了，但是总体信息量并没有减少。

相比一本词典，手册更像是一本“教材”。通过这一“教材”，机器就可以更好的掌握英翻中的知识，加深对任务的理解，翻译效果变得更好。

图：Jack Rae举例英翻中的思想实验“中文房间”（来源：Jack Rae视频分享）

这个例子向我们展示了一个推论，即“学习的本质，可以理解为对有效信息进行无损压缩的过程。压缩率越大，学习的效果就越好，系统的智能水平就越高。”

基于这个推论，Jack Rae认为，“为实现AGI（通用人工智能），我们需要搜集尽可能多的有效数据，然后使用强大的基础模型对其进行无限度的压缩。”

如下图所示，红色部分代表着我们所能获得的有效数据，也就是训练集，灰色部分所对应的是真实世界的信息。我们关心的核心问题，不是如何“记住”或者100%复现训练集中的数据，而是如何从这些已知数据中（红色），通过压缩（训练），学习到数据中的内在规则，并将其推广到未知数据中，从而可以“以偏概全”实现对真实世界运行的有效预测（灰色）。

一个模型越能够准确预测未知数据，说明它的泛化能力越强，也就代表着更高的智能水平。

图：无损压缩是实现AGI的一种方式（来源：Jack Rae视频分享）

为了达到AGI这一目标，我们认为关键在于三点：

一是压缩方法的选择，也就是找到一个最优的数据“压缩器”；

二是训练集的准备，即“如何获得尽可能多的有效数据”；

三是压缩的过程，如何训练一个强大的基础模型。

找到最优的数据“压缩器”

在Transformer兴起之前，通常对于文本数据，主要采用RNN及其变体（LSTM、GRU等）作为数据“压缩器”，以训练语言模型来处理特定的NLP任务。但实际成效并不显著。

由于RNN的循环反馈结构，使得其在处理长序列或者模型深度增加时常会发生梯度消失或爆炸的问题。这一因素导致基于RNN架构的模型在上下文学习和大规模数据集上表现不佳，难以建立足够的泛化能力。

因此，在RNN主导的机器学习时代，由于模型的“压缩”能力有限，它们主要用于处理小规模和短序列的数据。所学习的规则通常只适用于特定任务，难以很好地泛化到其他任务，导致模型之间存在明确的分工。

Transformer架构的推出，尤其是GPT-3的成功实践，验证了基于Transformer的LLM（大语言模型）是目前SOTA的数据“压缩器”。

根据Meta AI和DeepMind的研究《Language Modeling Is Compression（语言模型是压缩模型）》，LLM在长序列处理（上下文学习）、尺度规则（Scaling Law）等方面展现的优势，使其成为强大“压缩器”的主要原因。

同时，该研究也指出，Transformer在文本、图像和音频等跨模态数据集上表现一致。

一是Transformer引入的自注意力机制，能够更高效的“压缩”长序列数据，捕捉输入序列中的长程依赖关系。

具体来说，自注意力机制通过计算每个元素与序列中其他元素之间的注意力权重来实现这一点。这些权重表示某个元素对当前处理的元素的重要性。通过加权求和，模型能够在生成当前元素表示时，整合序列中所有其他元素的信息。

也就是说，Transformer不仅可以学习独立数据点的局部特征，还能够深入学习这些数据点在上下文中更高维度的相互依赖和联系。

这一点对于NLP领域尤为重要，因为语言的意义通常由词汇在整个句子、段落甚至篇章中的互动共同决定。自注意力机制使模型能够理解词汇在上下文中的动态关系，从而更准确地捕捉句子的语义和情感。

同样，在其他诸如计算机视觉、语音识别等领域，考虑到上下文信息也能极大提高模型的表现。

例如，在计算机视觉领域，自注意力机制能够通过理解图像中不同元素之间的关联及其在更大场景中的作用，提高识别和理解图像的能力。

在语音识别中，自注意力机制帮助模型捕捉语音信号中的长距离依赖关系，识别讲话者的语调、停顿和音节变化，提高语音转文字的准确性和流畅度等。

二是Transformer架构可以通过灵活且稳定的扩展模型规模，支持更大规模的数据处理和压缩。

一方面，Transformer的设计机制，包括自注意力机制、残差连接和归一化技术，有助于减少训练中的梯度消失和爆炸问题，使其能够稳定地扩展模型尺寸。自注意力机制通过全局上下文的捕捉和动态权重分配，使模型在处理长序列时保持高效和稳定；而残差连接和归一化技术则有效缓解了深层神经网络训练中的梯度问题，确保在增加层数和参数时，模型仍能稳定训练。

另一方面，上述Meta AI和DeepMind的研究成果也证明了尺度规则（Scaling Law）在Transformer架构中的有效性。

Scaling Law表明，随着模型尺寸和训练数据集的增加，Transformer模型的性能会显著提升，且具有更好的压缩率。更大的模型在更大的训练集上能够捕捉更复杂的模式和关系，从而在压缩和生成数据时表现出更高的效率和精度。

图：较大的模型在更大的数据集上具有更好的压缩率，这证明了最近关于Scaling Law的趋势（Kaplan等人，2020）。对于每个数据集，模型大小达到临界点后，调整后的压缩率会再次上升，因为参数数量超过了数据集的大小。

在实际训练中，我们可以通过多种方式来扩展Transformer模型尺寸。

例如，增加模型的参数量，有助于在压缩中保留更多的关键特征，减少信息损失；增加神经网络的层深，逐层抽象和整合输入数据，使模型能够捕捉到更深层次的特征和关系。

此外，增加注意力头的数量，可以让模型在处理输入数据时有更多的注意力机制，从不同的角度捕捉和整合信息。

这些模式、特征以及知识表示等被编码存储在庞大的参数空间中。

从Transformer的结构看，模型参数由两部分组成，多头注意力（MHA）部分和前馈网络层（FFN）。其中，FFN参数占比超过2/3。《Transformer Feed-Forward Layers Are Key-Value Memories》这篇论文论证了FFN构成了大模型的记忆网络，存储了大模型学习到的知识主体。

大规模、高质量的训练集准备

在Scaling Law的主导下，为了得到更好的“压缩”效果，我们需要更大的参数模型，以及“尽可能多的有效数据”。因此，训练数据准备尤为重要。

Jack Rae提到的两个关键词，一是“尽可能多”，二是数据的“有效性”。

只有当数据达到一定规模时，才能够覆盖广泛而多样的数据类型和场景，为“压缩”提供了一个更接近真实世界的信息样本，以确保模型能够学习到丰富的模式特征和知识表示，有助于提高模型的泛化能力。

数据的“有效性”可以理解为数据质量，反映了数据中所蕴含的“智慧”程度。数据的“智慧”或质量越高，基于其所“压缩”的规则用来预测未知情况的准确性就越高。

文本、图像、视频等都是我们获取有效数据的重要来源，是人类知识的载体，蕴含着丰富的人类智慧。

我们可以通过自建或者公开数据集等方式尽可能多的收集这些数据，从而建立对世界知识的全面覆盖；然后对数据进行进一步的预处理，从中剔除掉那些无效、低质量的样本，尽可能的使用有效、高质量的样本。

在这个过程中，我们可以采用一系列指标来衡量数据质量，以作为“剔除”的依据。例如，可以考虑信息密度、复杂度、时效性、真实性、可靠性，以及价值观等因素。

以OpenAI训练GPT-3为例。GPT-3训练集规模达到了45TB，包含了扩展版本的Common Crawl和Web Text数据集，以及两个基于互联网的图书语料库（Book1和Book2）和英语维基百科数据集等。

与按照数据集大小比例进行采样不同，OpenAI的研究人员更倾向于频繁采样“智”量含量高的数据集。因此，可以看到，在预处理过程中，Common Crawl和Book2数据集的采样次数不到一次，而Web Text和Book1数据集则被采样了2-3次。

图：GPT-3训练集数据来源及采样比例（来源：OpenAI技术报告）

预处理过程是一项非常耗时耗力的工作，包括质量过滤、冗余去除、隐私消除、词元切分（Tokenization）等多个步骤，但其所形成的大规模、高质量的数据积累同时也构成了模型性能竞争的主要壁垒之一。

以商汤科技为例，其在训练集的准备上下足了功夫。

商汤投入了数百台服务器，搭载了千卡级的GPU计算资源，通过算法自动化结合人工预处理的方式，对原始语料数据进行了分门别类的精细化清洗；

同时还训练了大量的分类器，可以按照具体的要求来筛选高价值的数据，并对一些特定类别的数据进行大量的人工标注。

通过关注训练数据的每一个细节，确保数据集在质量、安全性和价值观等各方面都符合有效性的要求。

目前，商汤的高质量数据每个月产出量已经达到了2万亿token，并在总体储备量上突破了10万亿token。这些数据也成为了「日日新SenseNova 5.0」大模型训练的基础原料。

图：商汤在训练集准备上投入了大量的资源和工作（来源：商汤科技）

训练强大的基础模型

我们所准备的训练集不仅包含输入信息，也涵盖了期望输出的目标答案。

模型在这样的训练样本上进行自监督学习，通过迭代的执行某种优化方法，不断调整模型参数的权重，使得输入信息的预测结果逐渐逼近目标答案，最终“炼”成具有超大参数规模的基础模型。

这一训练过程不仅需要大量数据，还需要强大的计算能力和精妙的算法调优。

在计算能力方面，高性能计算芯片如GPU，以及大规模分布式计算架构是确保训练过程高效进行的关键；

在算法调优方面，研究人员需要通过不断尝试和优化，选择最佳的压缩率、批量大小以及其他超参数，来提升基础模型的压缩效率和效果。

此外，为了能够充分利用有限的计算资源，同时达到最佳的模型效果，研究人员将混合专家模型（MoE）与Transformer架构结合，在同等计算条件下，可以显著扩大模型或数据集规模，达到更好的训练效果。

以商汤科技为例，为了实现打造全球最佳基础模型的目标，商汤建立了超大规模的GPU集群，并在其上构建了一套软硬件一体化的工程体系，为模型训练迭代提供稳定的算力支持。

在过去一年中，商汤从0到1训练了上千个超过10亿参数的模型，以及上百个超过百亿参数的模型。在这些模型的训练和调优阶段，研究团队进行了大量探索和改进，积累了丰富的训练经验和算法“配方”。

这些宝贵的Know-how被有效应用到更大规模的千亿参数模型训练中，成功复现了相应的改进效果。

图：数据、算法、计算共同支撑商汤千亿参数基础模型训练

商汤最新发布的「日日新SenseNova 5.0」大模型，采用了混合专家（MoE）架构，拥有6000亿参数，显著提升了在知识理解、数学运算、逻辑推理以及编程代码处理方面的能力。其综合性能与GPT-4 Turbo相媲美，并在多项主流客观评测中实现或超越了GPT-4 Turbo的表现。

图：商汤日日新5.0主要更新亮点（来源：商汤科技4.23发布会）

基础模型的能力解构

我们通过准备大规模、高质量的训练集，采用以Transformer为核心的模型结构和尺寸设计，并不断调优和迭代“压缩”过程，使训练的基础模型能够学习到丰富的知识表示、复杂的模式和特征，从而具备强大的泛化能力和智能化水平。

接下来，如何充分利用这一能力并将其转化为有效的生产力工具，成为了实际应用中的重要命题。

在实际应用中，我们应该避免“拿着锤子找钉子”的现象，首先识别真正的需求和挑战，然后选择或创造最适合的工具来应对。这就意味着，在使用大模型能力时，我们应首先明确具体的应用场景和目标，再根据需求优化和调整模型能力，将其转化为实用的生产力工具。

为此，我们可以对现实世界中的问题进行初步分类，分为已解决的问题、需要推理的问题以及需要探索的问题。

图：现实世界的三类问题（来源：商汤智能产业研究院）

第一类“已解决的问题”，通常已有明确的答案和验证过的解决方案，为我们提供了可靠的知识基础。

这类问题涉及常识、事件、文化、科学和历史等方面的知识，并通过文本、视频、图像和语音等各种数据载体浓缩了人类广泛的智慧。针对这类问题，我们可以通过建立“知识库”来记忆和存储这些知识，并结合高效的检索予以解决。

第二类“需要推理的问题”，这些问题需要基于现有知识进行逻辑推理和综合分析才能解决。

因此，解决这类问题不仅依赖于已有知识的准确性和可靠性，还取决于逻辑思考和推理水平。而这些问题的解决又能进一步深化我们对已有知识的理解，扩展我们的认知边界，从而带来技术和应用上的突破。

第三类“需要探索的问题”，这一类的问题不仅在于认知层面的思考，还要经过大量的实验、观察和探索，通过与世界互动并结合对外部工具的使用和控制的方式予以解决。

随着这些问题的解决，新的知识和理解又将被纳入我们的知识体系中，丰富了我们的知识库，也为未来新的探索提供了新的起点和方向。

针对以上三类问题，我们可以将基础模型的能力进行进一步的分解，对应的划分K-R-E三层，即知识层（Knowledge）、推理层（Reasoning）和执行层（Execution）。这三层之间彼此依存，又相互独立。

通过对基础模型能力的解构，我们可以结合实际问题，更有针对性地增强和应用基础模型的各项能力，使其在实际应用中发挥更大的潜力和价值。

图：基础模型的KRE架构（来源：商汤科技）

知识层：世界知识的全面灌注

第一层知识（Knowledge），是模型智能的基础，其核心在于对世界知识的全面灌注，实现对客观知识和世界的初级认知。

知识层的核心任务是处理“已解决的问题”。通过对海量数据处理和压缩，模型学习并记忆了丰富的通用知识表示和模式规律。

当遇到相关问题时，模型能够高效地在参数空间中检索相关信息，并对这些信息进行整合和加工，最终输出答案。

这一过程与人类通过回忆记忆和经验来解答问题十分类似（不排除错误或幻觉）。

例如，当我们想让模型写一份请假条，因为它必定在训练集中已经见过成千上万的类似文本，学会了假条的书写模式和规律，那么只要我们简单的“告知”它这个任务，模型就可以很好地泛化并生成符合要求的文本。

但是，当我们想让它结合最新数据撰写一份医疗行业的趋势分析，或者帮助总结具体的工作报告时，它可能就会陷入空洞无物的泛泛而谈。

这主要是因为模型在训练过程中并没有涵盖此类最新或特定领域的数据。

因此，对于一些专业性较强的长尾领域知识，或是模型训练时未包含的最新数据，我们可以通过一系列知识增强的方法来提升基础模型在知识层的表现力。

这些方法可以简单概括为“知识编辑”和“检索增强”。

在“知识编辑”方面，可以进一步分为提示词输入和模型微调两种方法。

提示词输入即将新的知识以提示词（Prompt）的形式输入模型。这种方法不仅提供了一种直观、易理解的知识描述，并且由于没有改变模型参数结构，保留了原始模型知识存储，既节省成本又减少资源需求。

然而，提示词输入对上下文理解要求较高，对于大量的定制化知识注入，由于不能形成长期记忆，在实际使用中并不便捷。

模型微调与提示词输入不同，它是通过改变模型参数来学习新的知识。这种方法确保了新注入知识的持久性。微调技术多样，包括全模型微调、部分微调、迁移学习、Prompt Tuning等，以及更精细的技术如Adapter Tuning、Prefix Tuning、P-Tuning、LoRA、QLoRA等。这里不做展开。

例如，商汤科技基于商量大语言模型和海量医学知识，打造了医疗健康大语言模型“大医”，为用户提供自诊、导诊、预问诊、用药咨询等丰富医疗健康服务，能够耐心、专业、准确地回答各类医疗健康问题。

“大医”已在多家医疗机构实现落地，覆盖四大领域、13个细分医疗健康场景，并获得广泛认可。

图：商汤“大医”覆盖四大领域，13个细分医疗健康场景

如商汤与郑州大学第一附属医院国家远程医疗中心合作，基于“大医”研发了行业前沿的用药咨询大语言模型，为患者提供智慧、便捷、高效的线上用药咨询服务和体验。

图：商汤与郑州大学第一附属医院国家远程医疗中心合作，基于“大医”研发了行业前沿的用药咨询大语言模型

虽然微调是一种有效的方法，但也面临一些问题。

例如，在微调阶段，模型容易遗忘预训练阶段所学习的通用知识表示，导致通用性和泛化能力的损失，出现灾难性遗忘问题。

此外，微调成本相对较高，对于需要频繁更新知识的场景显然不太适合。

因此，在实际中检索增强生成（RAG）成为了更常见的知识增强方式。这种方法通过调用外部资源实现模型能力的扩展。

简单来说，RAG为大模型配备了一个专门的“信息检索器”，将大模型与外部知识库（如行业知识库、互联网等）连接在一起。

通过检索外部知识，模型可以访问到比其内部知识库更广泛的知识空间，从而解决知识过时或覆盖不足的问题，引导模型生成更准确、更具信息量的内容。

RAG为大模型提供了一种灵活、经济且高效的知识增强手段，广泛应用于多个领域，如企业知识库问答、AI搜索引擎、法律顾问、学习助手等知识层应用。

例如，上海银行与商汤科技合作，通过商量语言大模型与金融知识库的结合，构建了数字员工的“智慧大脑”。目前，已完成2000条问答数据、10万条语料数据的知识库搭建，二期问答准确率相对于一期提升了20%。

数字员工为银行客户提供AI理财顾问服务，特别是针对占比30%的老年客户群体，只需与手机上的数字员工进行自然对话，就可以实时查询余额和明细、转账、缴费、业务介绍等功能。通过提供准确、专业的金融知识问答服务，降低了老年人使用手机银行的门槛，帮助银发群体跨越“数字鸿沟”。

图：上海银行数字员工提供准确可靠的金融咨询服务（来源：商汤科技）

目前，大多数AI生产工具主要解决的是知识层面的问题。当用户提问时，其底层逻辑源于“世上无新事”——你所面临的问题，前人可能已经遇到并解决了。因此，大模型可以很好地完成这些任务。

推理层：理性思维的质变提升

第二层推理（Reasoning），是模型智能的高阶阶段，代表了理性思维的质变提升。

推理层专注于处理那些需要严谨逻辑推理和分析才能得到答案的复杂问题。这类问题的解决过程不能简单依赖于参数空间中的直接信息检索，而是需要模型逐步思考，基于已知信息把事实推理出来，给出更多的可能性。

目前，模型的推理层能力还有待进一步提升。具体来说：

一方面，我们可以在训练的不同阶段提升模型的推理能力。

在预训练阶段，训练集的质（智）量至关重要。研究表明，在大量的科学文献、代码数据、思维链（CoT，Chain of Thoughts）数据上进行训练可以显著提高基础模型的推理能力。

例如，在比较不同版本的 GPT-3 时，未经过代码训练的模型，如 GPT-3 的文本 davinci-001，通过 CoT提示词在数学推理任务GSM8k上获得了从 6.4% 到 12.4% 的准确率提升（Cobbe等人2021年）。

相比之下，经过代码训练的模型，如 GPT-3 的文本 davinci-002 和 Codex（Chen等人，2021年），在CoT提示词的推动下，分别以15.6%到46.9%和从19.7%到63.1%的显著精度增长。

因此，我们看到，商汤近期发布的「日日新 SenseNova 5.0」大模型，采用了超过 10TB 的高质量数据进行训练更新，其中包含数千亿条CoT合成数据。这使得日日新5.0不仅在语言&知识类能力上表现突出，在推理、数学和编程能力上也都取得了显著提升。

图：日日新5.0在常用的客观评测上达到或超过GPT-4 Turbo

在微调阶段，一些研究表明，通过在指令集合中混合CoT数据或代码数据，对模型进行微调，可以显著提高模型在复杂任务中的推理能力。例如，Chung等人（2022）在论文《Scaling Instruction-Finetuned Language Models》中就探讨了该方法的有效性。

此外，还有一些研究通过强化学习的方式，将中间推理步骤和最终推理结果的正确率作为奖励，来优化模型的推理表现。例如，Uesato等人（2022）在《Solving Math Word Problems with Process-and Outcome-Based Feedback》中详细描述了这一方法。

另一方面，我们也可以通过复杂推理的提示词工程、调用第三方工具等方式来增强或拓展模型的推理能力。

例如，CoT提示词工程已被证明能够改善大模型在算术、常识和符号推理等任务上的表现。

当我们在问题中增加“Let’s think step by step”或示范推理步骤时，模型不仅能够清晰地列举推理过程，解答问题的准确率也有了显著提升。这也为在复杂问题的解决提供了至关重要的可解释性。

然而，研究表明，CoT提示对模型推理性能的提升与模型规模成正比。当模型参数至少达到百亿规模才显示出一定效果，而在千亿规模时效果才明显。

此外，使用人工构造的思维链，不同人员编写的推理示例在准确率上存在高达28.2%的差异。因此，在实践中，例如Auto-CoT，X-CoTA等自动化CoT改进方式也常被使用。

在数学计算等复杂场景下，我们可以通过调用代码解释器（Code Interpreter）等第三方工具的方式来拓展模型在数据分析、复杂计算等方面的推理能力。

例如，依托商汤大语言模型的代码解释器能力，商汤推出了“小浣熊家族”的AI native生产力系列工具，包括了AI编程辅助工具“代码小浣熊”和AI办公辅助工具“办公小浣熊”，为数万名用户提供近亿次AI辅助服务。

其中，办公小浣熊是一款无需编程或复杂操作即可使用的数据分析工具。通过自然语言输入，办公小浣熊结合用户意图识别、逻辑理解、代码生成能力，自动将数据转化为有意义的分析结果和可视化图表。

在数据分析场景下的数据测试集（1000+题目）中，办公小浣熊以85.71%的正确率超过GPT-4。

视频：用办公小浣熊统计F1车手周冠宇和F1赛事的情况时，只要导入数据表格，通过自然语言交互方式，就能分析统计出最近3年周冠宇参赛信息。其中包括引导模型将数据库中拼音的guanyu-zhou与人类搜索的汉字周冠宇实现匹配，打通任务链。还有更复杂的任务，如统计F1总共有多少车手，有哪些获得过总冠军，获奖次数从高到低排列，这涉及更大的数据表格和圈数、领奖数等更多维度的细节信息，最终也都给出了完全正确的答案，还能自动生成雷达图。

代码小浣熊则是一款覆盖软件需求分析、架构设计、代码编写、软件测试等环节，满足代码编写、编程学习等各类需求。它支持Python、Java、JavaScript、C++、Go、SQL等30+主流编程语言和VS Code、IntelliJIDEA等主流IDE开发环境。

在实际应用中，代码小浣熊可以帮助开发者提升编程效率超50%。在权威测试集HumanEval的测试中，所有自动编程题目一次通过率达到71%。

图：代码小浣熊自动编程并执行生成网页（来源：商汤科技）

推理层与知识层之间彼此密切相关。

一方面，知识层为推理层应用提供可靠的信息基础。例如，在处理数学问题时，GPT-4调用代码解释器后生成的推理结果可能会出现错误，因为知识层的代码生成无法保证百分之百准确。

另一方面，推理层对新问题的解决，也为知识层能力提升提供新的知识注入。

执行层：世界内容的互动变革

第三层执行（Execution），是模型智能与外部环境的交互，代表着与世界内容的互动变革。执行层关注的是与真实世界的互动和操作问题。

如果将知识层和推理层比作“大脑”，分别对应着人类的“记忆”和“思考”的能力，那么执行层就像“小脑”，其核心在于行动。

执行层根据“大脑”的指令，灵活调用和协调外部工具或资源——为模型装上“四肢”，以更好的与环境互动。

其中，函数调用（Function calling）作为执行层的关键技术，构成了大模型与外部世界的链接。

它允许模型调用外部函数或服务，以获取额外的数据或执行特定的任务。

Function calling不仅有助扩展模型能力，如上述RAG、代码解释器等；还使得基础模型不再局限于一款通用的Chatbot，而是成为应用的“智能中枢”，以场景化的智能为依归，更好地适应复杂任务场景。这也是构建智能体（Agent）的基础。

例如，商汤推出日日新·商量大语言模型Function calling & Assistant API版本，为开发人员提供灵活、高度可定制的工具调用框架，支持包括联网搜索、代码解释、图文问答、文生图等多种工具调用。

与其他同类产品相比，商量大语言模型 Function call & Assistants API 版本率先支持不同模态的工具调用，能够支持图文结合的多模态交互和数据分析代码执行结果的直观呈现，从而解决更复杂的问题，使各种应⽤程序中集成AI功能变得更加简单和⾼效。

图：大模型关键技术Function calling支持多种工具调用（来源：商汤科技）

对于执行层而言，工具调用的准确性尤为重要。《API-Bank：A Comprehensive Benchmark for Tool-Augmented LLMs》研究提出了基准测评集API-Bank，主要用于评估LLM的API使用能力。

该研究发现，基础模型在API使用方面虽然表现出一定能力，但在为用户提供可靠服务的一致性方面仍有改进空间。正确调用API和严格遵守API文档，对基础模型在使用API工具时带来了重大挑战。

图：不同大语言模型在API-Bank评测集上的结果比较（来源：上述论文）

同时，研究也提出，构建多样且高质量的数据集是提高基础模型执行层能力的有效方法。例如，TALM（Parisi et al. 2022）和 Toolformer（Schick et al. 2023）都是在特定的数据集上微调而实现模型使用工具的能力增强。

执行层对外部工具和资源的调用，为大模型装上灵活的“四肢”，使其从一个只会聊天的“盒子”变成一个听话的“AI助手（Copilot）”，能够与人协作一起完成较为复杂的任务。

随着模型“大脑”的不断进化，模型在执行层面将会进一步升级成为人类的“AI代理（Agent）”，在更复杂的任务和环境中发挥作用，提供个性化服务，进行高级决策支持，甚至在特定领域内实现自主操作。

而当Agent与机器人、IOT设备等实体技术融合时，在执行层面将进一步外化为具身智能（Embodied AI），使其能力不再局限于数字世界，而是通过与物理世界的直接互动，转化为推动实体世界变革的生产力工具。

图：模型执行的四种模式（来源：商汤智能产业研究院）

Chatbot模式可以参考上文提到的网络搜索或代码解释器作用，这里不做赘述。

Copilot是当前大模型应用的主流模式，它不仅仅是一个执行命令的工具，而是作为一个知识丰富的合作伙伴，为人类提供建议、协助决策、优化流程等。

微软提出“Copilot是一种全新的工作方式”的理念，并将Copilot从代码服务普及至办公工具，如Dynamics 365 Copilot、Microsoft 365 Copilot和Power Platform Copilot等都迎来全面升级。

例如，Microsoft 365 Copilot通过Microsoft graph将大模型与微软办公软件连接起来，将Copilot融入到Word、Excel、PowerPoint、Outlook等办公软件中，帮助用户生成文档、摘要、撰写邮件、自动生成PPT，以及流程跟进等。

其中，Microsoft graph可以看作Microsoft 365的API接口、数据存储传递窗口和云计算连接器，是微软基于具体业务场景构建的智能模型“中间件”，也是大模型在实际应用落地过程中，与业务融合和优化的关键，有效助推了大模型的应用转化。

图：Microsoft 365 Copilot原理图（来源：公开资料）

Agent是模型在执行层面的进一步演化。

与需要与人类协作的Copilot不同，Agent拥有更高的“主观能动性”，可以在数字世界的开放环境中自主执行复杂任务，更接近于一个独立的行动者。

它能够感知环境、自主决策和执行动作，具备通过独立思考、调用工具去逐步完成给定目标的能力。在整个过程中，Agent发挥的作用占比超过人类，而人类更多扮演着监督者和评估者的角色。

商汤于 2023 年 5 月推出的通才Agent Ghost in the MineCraft （GITM）能够在《我的世界》中比以往所有Agent，都有更加优秀的表现，其面对各类地形、环境、白天黑夜场景，甚至遇到怪物也能自如应对。

例如，GITM能够完全解锁《我的世界》主世界的整体科技树的 262 个物品（以往所有智能体方法包括 OpenAI 和 DeepMind 在内总共只解锁了 78 个）；在标准的“获取钻石”任务上将成功率大幅提升了47.5%（从OpenAI提出的VPT方法的 20% 提升到 67.5%）。

图：GITM 面对各类地形、环境、白天黑夜场景，甚至遇到怪物也能自如应对（来源：商汤科技）

此外，在龙图游戏项目中，商汤Agent实现了开放指令下的人机配合，基于通用知识进行多模态联合训练，在特定环境自行探索，利用探索过程中的正负样本，自行更新参数，自适应环境。在满足部署需求的前提下，也拓展了智能 NPC 的边界。

正如上文提到，Agent在执行层所表现的“主观能动性”主要源自于模型健壮的“大脑”（记忆和思考）和“小脑”（使用工具）高效协作，以应对和适应复杂的外部环境变化。

下图展示了Agent的主要组件，包括记忆模块、思考模块、工具调用模块。

图：Agent工作原理（来源：商汤智能产业研究院）

在感知到外部环境变化时，Agent能够将输入信息转换为机器能够理解的表现形式；

接着，思考模块对这些信息进行处理，结合记忆模块完成推理、规划、反思等复杂推理过程；

最终，形成指令后并通过工具调用模块执行相应的指令，对外部输入做出响应。

这种架构使得Agent能够在动态环境中灵活应对和自主决策，体现出高度的自主性和智能化。

Agent根据其应用目标不同，可以进一步分成两种类型：

一种是面向效率提升，例如现在OpenAI的GPTs，大多偏向效率型工具；

另一种是拟人化方向，侧重与人类的情感交流，丰富精神世界。

例如，基于商汤“商量-拟人”大模型，筑梦岛为爱造梦的用户提供了PUGC的AI角色生产流程，可以帮助用户自由创造“梦中人”，或基于热门IP二次创作人物。这些虚拟人物成为人们身边的知心朋友，可以向他们倾诉、聊天，从中治愈。

图：商汤“日日新·商量-拟人大模型”官网

（关于Agent话题我们可以在以后的文章中详细介绍，这里不做展开）

具身智能可以视为Agent能力在物理世界中的实体表现，即通过具身智能技术将Agent规划形成的任务序列转化为物理世界中的实际操作。

例如，在工业场景中，具身智能机器人可以应用于3C生产线或汽车总装线，提高生产效率和自动化水平；在家庭环境中，具身智能可以承担清洁服务或家务工作，在养老场景具有不错的应用前景。

此外，具身智能甚至也承担着星际探索的使命，帮助人类在恶劣的外星环境中探索和研究。

Figure AI是一家新锐的机器人公司，致力于将大模型与机器人技术融合，旨在替代人类执行危险或者无聊的工作，尤其在制造、运输和物流、仓储和零售等劳动力短缺领域。

其研发的Figure 01人形机器人具备极强的与附近人类及其环境的互动能力，借助OpenAI的GPT模型能力，Figure 01可以与人类进行完整的对话，还可以执行递送食物、捡垃圾、收拾盘子等人物（如视频）。

Figure AI在最近的B轮融资中获得了包括微软、OpenAI、英伟达等机构的6.75亿美元投资，公司估值达到26亿美元。

视频：Figure AI人形机器人具有视觉能力并能表述所见画面，它伸手拿起桌上的苹果，并解释了这么做的原因，人类的提问后，这台人形机器人“思索”2~3秒后便能顺畅作答，手部动作速度则接近人类。

通过基础模型的构建以及能力的KRE分解，我们结合实际案例展现了生成式AI技术向生产力工具转化的底层逻辑。

然而，任何技术在发展过程中都会伴随着不确定性。大模型存在的偏见和幻觉、不可解释性、数据安全和隐私问题、版权侵权风险，以及对计算资源的巨量需求而可能导致的碳排放和能源相关问题等，都对技术发展提出了质疑和挑战。

同时，对于前述的通向AGI的经验性定律，例如“压缩即智能”、Scaling Law等，在当前学界也存在着许多争议。

对这些问题的求解与争论本身也在推动我们向AGI更近一步。

正如《为什么伟大不能被计划》一书提到的，“科学探索中的踏脚石是不可预测的”而“共识往往是通往成功的踏脚石的最大障碍。”“必须踩到更多的踏脚石才能探索更多的地方”。

图：AGI发展过程中伴随着争议和问题（来源：Gartner）

预告

在下一篇，即大模型分享系列的第三篇《可能的“颠覆”在哪里？》，我们将进一步探讨大模型将为哪些领域带来颠覆性创新和深远影响。

顺便也聊一聊近期这波模型降价风潮的主客观原因。我们认为，无论是客观的技术竞争，亦或是主观的战略抉择，大模型作为高外溢性、高投入的工程化产品，其价值主张来源于其上生长的智能生态。

敬请期待！

相关阅读

大模型系列分享|人工智能产业“智”变

商汤「日日新5.0」中文基准测评出炉，总分80.03刷新最好成绩，文科能力领跑

数字中国建设峰会丨商汤科技董事长兼CEO徐立：新质生产力下的大模型产业化

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

AI软件必须用GPU么？

2024-09-18

ChatGPT有三个快捷指令和三个模式，你知道吗？

2024-09-17

为什么4090比A100更有性价比？

2024-09-17

o1新模型数据乐观，现实却打脸？

2024-09-16

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

为什么4090比A100更有性价比？

o1新模型数据乐观，现实却打脸？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

为什么4090比A100更有性价比？

o1新模型数据乐观，现实却打脸？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示