我要投稿

万字长文剖析城市大模型：认知、应用、展望

发布日期：2024-05-30 04:18:35 浏览次数： 2836 作者：腾讯研究院

2022年底，ChatGPT的横空出世让千行百业看到通用人工智能的拐点。随后，GPT-4系列在高质量文本生成、推理分析方面表现出卓越能力，LLaMA拓展广泛应用生态，Sora视频生成惊艳亮相，通用大模型、尤其是 Transformer 架构能力的快速提升给大家不断带来惊喜。

然而尽管通用大模型能力出色且进步飞快，但在面对特定行业或领域的问题时，仍存在相当的局限性。在AGI（通用人工智能）目标实现之前，我们仍需探讨大模型近期的行业应用模式问题。构建行业大模型、领域大模型是现实的选择。如果说通用大模型是完成了通识教育的高中生，我们希望让它再学习一些特定领域的知识和技能，成为该领域的本科生甚至研究生，为解决领域问题提供更加专业的精准的帮助。面向城市，我们甚至希望，发挥机器比人脑碾压级的存储与计算优势，解决那些人脑无法解决的复杂系统问题。通过构建城市大模型，也许能帮助我们解决城市问题、助力城市发展、辅助规划决策、提升治理效能。

城市大模型能做些什么？技术驱动下为城市治理带来什么变化？又产生什么问题？如何构建城市大模型？技术的迭代更新非常迅速，很多问题还看不到确定性的结论，但经过一年多的实践探索，还是有一些方向和趋势已经显露端倪。

一、认知：

什么是行业大模型

下面哪个是你理解的行业大模型？

从零开始，用领域内的专业数据，从预训练开始，做大模型。
在通用大模型的基础上，学习行业特色数据与专业知识，即在大模型基础上经过行业知识精调，形成行业大模型。
基于基础大模型能力，进行应用开发，解决一些专业性问题。

目前，行业大模型还没有准确定义，上面这三种都会被叫做行业大模型。从一般用户的角度，如果只关心使用效果，也不用关心到底是哪一种方式做到的。但如果想多了解一点技术路线，或者关心自己的（或者行业的）数据资产与知识沉淀，那就需要区分是以上三种中的哪一种。

1. 纯纯型

从零开始，用领域内的专业数据，从预训练开始，做大模型。

想想如果能搞一个纯纯的根正苗红城市大模型，没有乱七八糟的数据噪声，它熟悉城市发展历史、了解产业经济的发展规律、掌握城市各方面的现状情况，最好还能理解不同主体的利益博弈，秉承以人民为中心的价值观......无论是赋能城市治理、公共服务、还是领导决策，都是极好的。

这在技术上并非没有可能性，但问题是成本太高而没有可行性。行业数据、算力成本、技术门槛都是问题。没有足够的数据就谈不上大。GPT-3的官方训练数据是753GB，LLaMA4828.2GB，文心一言亿级。换算成咱们最长的总规说明书，以10W字一份计算，1000GB就是500多亿份总规说明书。此外，高昂的算力成本，复杂的底层技术，都让从零训练行业模型的门槛高的摸不起，毫无性价比。

23年上半年，就是大模型最火爆的时候，有城市领导询问几个大厂：是否愿意为某个城市、或者政府政务专门训练一个大模型？得到的回答，当然是否定的。

目前看，除了如生物基因蛋白质分子结构、时序时空这些特殊模态的大模型外，从零构建一个行业大模型是没有必要的，也不符合大模型主要能力来自“预训练”的本质。

2. 精调型

在通用大模型的基础上，学习行业特色数据与专业知识，即在大模型基础上经过行业知识精调，形成行业大模型。

可能更符合多数人的认知。相对于开发一个全新的大模型，微调现有的通用大模型更为简单快捷，只需要高质量的行业数据即可。这个概念在上半年时候被广为宣传，以至于几乎绝大多数甲方客户都喜欢问：你们的行业大模型是用什么数据，怎么微调出来的，调前调后的效果有啥区别？

但考虑以下三方面因素后，这种行业大模型技术路线也有适用范围选择条件：数据知识、参数规模、基础模型。

（1）高质量的行业数据显然相当重要，它决定了要教给大模型什么样的行业知识。当然真正挖掘、整合和利用行业数据是件非常复杂的事。在城市领域，大概显性知识也就只有规划文本说明、政策文件、法规规范这么几类。当然，我们认为城市中最重要的共性知识是空间知识，通常适合通过多模态方式传递，这里暂时不提。城市规划设计中，“这个设计感觉不好”这种需要靠“悟”的方式来学习的经验和知识是无法被模型去学习的。所以，在对行业/领域知识进行梳理和理解后，就会发现，大模型能学的知识很有限，能做的也就很有限。通用人工智能还远没有那么通用，大概能理解这些的 AI 就是 AGI 了。

（2）参数规模与智能涌现。GPT3.5，文心一言、通义千问、GLM都是千亿以上参数规模。一般认为达到千亿参数（也有认为是更小规模，比如500-600亿）才出现“智能涌现”。面对城市复杂系统，智能涌现是我们非常需要的能力。而行业大模型通常基于百亿，或者更低参数规模的模型进行调优。因为只有这样，才能取得较好的调优效果、效率、性价比，以及私有化部署的可能。所以都是大模型没毛病，但只能做到形似而无法神似，难以达到我们对通用人工智能聪明程度的预期。

（3）基础模型能力与精调获得能力。有个常见的情况，就是费劲调了多轮，结果基础模型能力一升级，发现那些精调出来的能力被基础模型超越了。所以有人认为，调行业模型，不如等基础大模型能力升级。在基础模型能力还远没有看到边界的时候，调行业模型没有必要。还有种情况经常发生：一个任务能力通过精调提升后，其它能力大幅下降了。这实在有悖大模型的“通用”特长，也只能等待算法科学家来解决。

所以在深入行业大模型精调时，常常会产生“行业大模型”不存在的质疑。甚至有观点认为，不应该试图让大模型获得某种特殊的能力。

但面向特殊的行业领域，我们就是希望大模型在某些方面比能用大模型再“长”一些。这就引出了第三种行业大模型。

3. 应用型

基于基础大模型能力，进行应用开发，解决一些特定问题。

可能很多人的第一反应是这叫什么行业大模型，但可能真是现阶段最靠谱、也越来越成为主流形态了。关注的不是模型本身，而是具体要完成的任务。面向具体任务，利用大模型理解、记忆、生成、推理等基础能力，与其它工具、或者其它模型组合，来开发应用。

所谓特定问题，结合城市专业，可以分为知识的管理与生产、操作类问题两大类。知识的管理与生产，利用大模型检索问答、内容创作能力，解决规划设计过程中的创意过程、规范性问题。操作类问题如自动化绘图建模，利用大模型完成任务理解-指令生成-调起服务的思维链与动作链，提高操作类工作的效率。

对于知识的管理与生产，除了大模型，还需要建设行业知识库；对于操作类问题，重点在于系统接口的对接框架以及对现有接口的适大模型化改造。都挺麻烦的。这些在第三章中再做展开。此外，面向复杂场景，应用型与精调型也可以组合发挥作用。

回顾2023年，大模型经历了年初百模型大战“卷模型”、年中拿着行业数据“卷训练”、年底发现能落地见效还得“卷应用”三个阶段。这也恰好呼应了上述三种行业大模型。

技术在快速演进，认知在不断迭代。我们既期待大模型底层技术的进一步突破，也期待行业知识、领域知识、专家知识的数字化沉淀与智能化重构，更期待具体行业应用甚至超级App的出现。为需要更新的城市，需要刺激的经济带来些什么。

二、应用：

城市大模型及其应用场景

1. 如何定义城市大模型

上文聊的是对行业大模型的认知，重点落在“大模型”。但其实，“城市”这两个字更难定义。

面向城市规划建设行业的专业人员，对城市的认知是基本统一的。城市是人类聚居的一种形态、经济社会活动中心、建筑和设施的集合、地域政治实体.......

可一旦出了这个圈，想统一大家对“城市”的认知就非常困难了。无论是面对信息技术厂商、人工智能技术专家，甚至是面对城市政府，大家脑子里的“城市”，都不是规划师脑子里的“城市”。

城市这个概念太抽象，内涵和外延太丰富。城市研究的内容，涉及科技文明、产业消费、思想人性......似乎什么都可以与时俱进的装进来。这个学科就是这么与众不同，可能除了哲学其他学科都不好意思，涉及如此丰富的范畴。

然而在商业市场中，不需要这么丰富的内涵和外延，只需要明确的交易和利润。在商业市场中，“城市”是一类生意，这类生意的客户是城市政府，由城市政府来买单。

这样，城市大模型就成了由政府买单建设的大模型。猛一听来，这个定义太直白。但换角度想一想，由政府买单，就意味着是市场失灵的公共服务或者公共管理领域，所以城市大模型就是应用于市场失灵的公共服务与公共管理领域的大模型，这个定义也还算合理。

另一个视角，不以市场为出发点，而以数据和知识为核心，以人居环境知识来定义城市大模型，或称为人居行业大模型。

在规划、设计、施工和运维等环节，都有大量彼此相关的政策法规、标准规范等行业共性知识，整理工作量巨大且存在版权问题影响推广应用。为了鼓励所有主体应用或者建设细分领域和企业模型，应该由行业主管部门组织相关内容和技术资源，整合行业内现有的实践和产品，在对行业技术发展顶层设计有较清晰判断的前提下，提出合理、开放的行业大模型架构，并可在其上进一步架构企业模型，甚至可以以市场化方式成为行业知识流转共享的平台。

下文所述的应用，将以市场定义的城市大模型为主，这是目前看到的工程化、规模化、市场化的落地应用。而以数据和知识定义的城市模型，多以实验性探索为主，可能还需要更深刻的行业的组织模式、运作机制的突破，才能进入落地阶段。

2. 现有城市大模型应用场景

既然是“现有”、“应用”，不谈理念、模式、愿景，就是要接地气的东西。虽然大模型技术好像很高大上，但相比之下，有时候大家的期待才是更高大上。现有应用一点都不科幻，请做好心理准备，不要嫌low，现实就是骨感的。

今年已经看到的应用场景有这么几类：辅助决策、敏捷治理、政务服务等。

（1）辅助决策

决策这事儿有点复杂。我们说的规划决策，最核心的都是权衡博弈的结果。目前的大模型显然干不了这事。从技术上讲，人工智能可以分为计算智能-感知智能-认知智能-决策智能四个层次（也有分为三层，把决策智能作为认知智能的高级阶段），大模型推动了从感知智能向认知智能的提升，但距离决策智能还有相当距离。

但辅助决策就简单多了，提供相似案例、数据分析、政策分析都是辅助决策。AI凭借其存储和计算优势，理论上是可以提供更为全面、快速的辅助决策支持的。“AI负责全面正确，人类负责做出艰难的选择”，是决策过程中AI与人类分工的理想界面。

然而，无论是案例政策文本还是指标数值，全面正确的前提都是要先有数据和知识的输入，比如案例库、政策库、数据库。这些库的建设无一不需要人工。尽管这个建设过程也可以有大模型等人工智能技术的工具赋能，但人工、专业知识的输入总是少不了。如果希望更多的发挥AI的能力，就必需要先进行这些知识工程或数据治理工作。

近些年城市大脑、产业大脑等信息化项目，在一定程度上完成了一些城市数据的汇聚。所以目前最易落地的应用场景，就是对这些整理汇聚的数据库，用大模型能力进行基于语意交互的、灵活生成的数据分析，可以实现领导随心问，大模型即时答。这在一定程度上是对上一代“领导驾驶舱”的升级。

城市体检，也是用数据来反映城市状况。但由于城市体检的指标太少了，完全无法体现海量计算的优势，所以大模型的应用价值微乎其微。在数据指标成千上万时，大模型的交互和灵活生成才有价值。

大模型灵活生成的数据分析，作为决策支持存在相当的局限性。大模型虽然有一定的泛化理解能力，但并不能深入理解各指示之前的复杂关系。尤其面对城市复杂系统，系统要素之间有机关联。大模型只能进行表面化的指标计算，无法理解分析因果、相关等关联关系。它的优势是够快捷，而不是够精深。

如何进一步精深？需要把专家知识进一步教给AI。去年我们提出的“城市元指标”便是让AI能够更深入理解数据指标的城市知识工程，基于数据指标之间的逻辑关系构建数据结构，而不是简单的一张表格。

另一方面，我们可以让AI扬长避短，发挥优势，在“够快捷”上做多文章。这就引出下一类应用场景——敏捷治理。

（2）敏捷治理

第四次工业革命以前所未有的速度、广度、深度驱动人类生产生活方式的变革，随之而来的高度复杂性和不确定性，也导致传统政府治理的公共行政模式与组织决策模式因过于僵化而难以应对新需求、新问题、新挑战。

为了应对快速变化的外部环境与随机出现的即时性城市问题，多种治理逻辑被学界提出，敏捷治理在此背景下应运而生。敏捷治理正式提出于2018年世界经济论坛上发布的《敏捷治理:第四次工业革命时代政策制定的重构》，但其思想与实践可以追溯至世纪初甚至更早时期。敏捷治理“旨在构建一种能够快速且灵敏应对公众需求的治理模式，来提升组织运营效率并改善用户体验。”

治理对象上，敏捷治理强调以人为本，以用户为导向。治理节奏上，强调快速回应，尽早介入，问题识别不能完全一次做到，但回应比沉默重要。治理方式上，强调灵活应变、渐进迭代、非线性决策、执行就是再决策。治理关系上，强调双向互动、决策参与平等、政策的实时动态反馈评估。

国内外众多超大城市通过运行城市热线平台实现第一时间获取社会诉求，如纽约市政热线311、北京市民服务热线12345，从源头上快速回应需求，都是敏捷治理的典型实践。尽管学界对这类实践的利弊尚有争议，但不可否认其对于官僚体系、精英治理的补充意义。

对于这些问题与诉求的广泛采集与快速回应，大模型技术可以很好的提供支持，包括对问题诉求的快速识别、总结提炼、派单分发、基于过往案例经验、法规条例的处置建议。尽管有些功能基于小模型也可以完成，但大模型还是提供了更高的效率和更好的体验。这里同样需要一定的知识输入，也可能涉及多模态大模型。

（3）政务服务

这个方向相对比较具体，之所以单独列出来，是因为一般认为，“智能问答”是目前最成熟的大模型应用。相比辅助决策、敏捷治理更多的2G属性，它还具有2C服务的属性，或被称为G2C服务。更容易获得老百姓可感知的成效。也确实是23年最早开始落地验证的一类城市大模型项目。

政务服务指各级政府、各相关部门及事业单位，根据法律法规，为社会团体、企事业单位和个人提供的许可、确认、裁决、奖励、处罚等行政服务。政务服务线上平台，通过打通不同部门的信息系统，打通线上线下服务，减少繁琐的手续和流程，让群众、企业更快速地办理各种事务，提高行政服务效率。

大模型可以通过学习各类政策文件、法律法规、办事指南，为群众提供政策咨询服务，引导办理服务，为企业还能提供政策解读与兑付匹配。

尽管“智能问答”被认为是最成熟的应用场景，但如果不满足于脑残答复，追求更好的效果，仍面临许多技术问题，也同样需要业务专家的支持。首先汇聚全部的政策文件、法律法规、办事指南。然后这些材料中可能出现相似又不相同的规定，甚至可能是有点矛盾的条文，还有些时效性的政策、连续性、关联性的政策，处理起来并不容易。理想的，我们还是希望有一个政策知识库，它不是简单的一堆文本的文件夹，而是一个有知识结构的库，具备实时更新、智能检索、语义理解等功能。

建立政务服务知识库并不容易，从业务角度，需要研究知识范围边界、收集知识数据、把握知识结构。从技术角度，包括数据采集（导入清洗、文档解析、语言切分），知识生产（建模、融合、消歧），知识增强（向量化、相似度计算、倒排索引）、知识管理（检索、干预、溯源分析）等多个技术过程。知识库建设过程中，同样需要大模型技术赋能，降低人工投入，提高建设效率。

与“城市元指标知识工程”类似，这同样是一项较为复杂的系统工程。

我们把同样的技术思路应用于更为广义的政策文件，而不局限于公众服务、企业服务的政策文件，那么这个智能问答可以支撑更为广泛的政策制定与评估，而不仅仅是政务服务。

（4）其他

以数据和知识为核心来定义的城市大模型，涉及规划、建筑、交通、市政、地产、物业等多个具体领域，各领域均有大模型应用尝试。篇幅所限，这里仅做简述，在腾讯研究院即将发布的《生成式AI人居领域应用趋势调研报告》中，会有详细的解读。

在规划阶段，基于向量数据库和“城市规划公开数据集”，规划大模型已经实现了知识检索、文本生成和信息融合三大功能，在帮助规划师前期调研、资料总结整理，也具备了生成各种成果文本的能力。

对于人居行业特有的空间数据和时空数据，大语言模型暂时还无法直接理解，城市认知大模型，通过时空知识图谱等技术，突破了大模型空间理解的限制。

图像生成模型已经在设计领域广泛应用，可以实现灵感创意的一键生成与自由探索，并可以对成果在线编辑和局部重新生成。特别是云端模型训练功能，可以让用户使用图片训练自己的风格模型。

Sora的出现让我们看到了视频到三维大模型的可能性。NeRF和高斯泼溅等技术的成熟，使我们已经可以更高效进行空间的三维重建。可以通过文本、图像、草图和视频等，自动生成BIM级的可编辑3D模型，相信直接用语言描述生成三维建筑方案也不会太远了。

物业服务领域，也在形成虚实结合的超级管家“1+i”服务模式，真人管家线下服务，数字管家作为数字孪生助手。就连设备运维也可以通过大模型获得专家级支持。

Transformer模型基于注意力机制，具有对海量自然语言的理解能力，可以承载历史文化、生活经验、地域特征等隐性空间知识，以及法规、规范等结构化知识；而Diffusion（扩散）模型则通过大量作品的学习，可以形成特定的设计风格，并进行基于图像甚至三维的创作。因此，大语言模型与生成式AI不仅将改变设计工具的形态，更可能以新的方式创造出前所未有的空间特征。设计师不再受传统创意思维模式和技术限制，而是能够借助AI的强大能力开拓新的设计领域和创作方式。从创意草图到精细化设计，从局部改造到城市更新，从单体建筑到城市规划，大语言模型和生成式AI将对设计的各个阶段产生深刻影响。同时，生成式AI的创作成果也可以推动设计理论和方法的进步，形成更加智能化、高效化和人性化的设计体系。

通过对基地以及周边时空要素的全面描述和理解，加上规范标准和专家经验的知识工程，未来可能基于Agents等方式，实现设计方案的直接生成。当然对于很多项目来说，过程中还是需要建筑师和业主的强参与。这种生成可能从概念方案到三维模型，然后反向生成各种工程图纸，并关联成本、产品解释等信息，BIM的生产和使用逻辑也会根本变化。未来AIGC的托底效应，不仅将提高行业整体的设计水平，还将通过生成代理人和社交网络等方式，进行更加复杂的社会运行和时空行为模拟，促进更广泛的公众参与。

现阶段，这些“大模型”在各个领域和环节分别应用，但最终，以城市空间为核心，将所有空间知识整合成一个广义的“城市大模型”，作为所有相关领域的共性基础设施，才能最大程度发挥大模型的价值。

广义的城市大模型的落地实施，需要行业主管部门进行顶层设计和统筹规划，以确保行业共性知识库的合规性，并推动建立一个可扩展、可协同的行业大模型技术架构，同时，探索可持续的运营与服务模式。这种架构与模式应当促进产业链各环节之间的有效沟通和协作，使得各环节能够独立构建和应用其领域模型和企业模型，并实现跨领域的协同和整合，从而提升整个行业的竞争力和创新能力。在领域众多而高度协同的城市领域，这种统筹尤为必要。

三、展望：

城市大模型的预期价值

游戏故事1——斯坦福25小镇

2023年4月，斯坦福和谷歌的研究者成功构建“虚拟小镇”引爆AI圈。虚拟小镇里有25个AI智能体。这些生成式智能体有不同的身份，比如药店店主、大学教授和他至爱的妻子、学音乐的儿子、邻居夫妇。他们的行为会符合他们的身份。他们可以与环境交互，比如在咖啡馆、酒吧、公园、学校、宿舍、房屋和商店不同的场所中有适宜的行为。看到浴缸漏水会从客厅找到工具并尝试修复漏水问题。更厉害的是，他们出现了“社交行为涌现”，彼此间会互相传播信息，协作举办活动，比如举办情人节PARTY。（https://arxiv.org/pdf/2304.03442.pdf）

以前，无论在计算领域，还是在城市学、社会学领域，对于这种复杂系统、社会行为的模拟都是非常困难的。从元胞自动机CA到多智能体系统MAS，都只能模拟相对简单系统的问题。智能体需要认知自己的身份，要有记忆，有连贯性的行为，要和他人协作，加上极高的时空复杂度，使得这类问题通常不可计算。但是基于大语言模型，这种随着时间推移而展开的动态复杂互动模拟实现了。

相比上文中接地气的现状应用，这可能才是更符合我们所预期的城市领域大模型价值。

1. 底层算法：直面“涌现”

可计算问题，是可以用算法或程序来解决的问题。然而现实世界中的绝大多数问题不是可计算问题，无法通过计算来求解。

城市问题，有多少可以抽象为计算模型，用计算解决？在规划师直觉里，我们可能会认为几乎没有。在具体的垂直领域可能部分存在，比如交通、能源资源供应等。但城市作为一个复杂系统，所面临的涌现性问题，即多个子系统耦合后产生的问题，是很难抽象成数学问题的。

随着算法的改进、数据量的增长、计算能力的提升，可计算问题的范围已经并还在快速扩大。斯坦福25人小镇的例子，让我们看到大模型技术带来的全新可能，对可计算问题边界的大幅拓展。

大模型的神奇在于“智能涌现”。过去的人工智能是教什么学什么，没教过的就不会。而当参数量大到一定规模后，忽然发现没有教过的东西突然无师自通了。无论是城市，还是大模型，“涌现”是作为复杂系统的基本属性之一。用大模型的智能涌现，去应对城市复杂系统的问题涌现，听起来是不是很美妙？

其实，全世界对大模型的理论工作原理很多时候还是一头雾水。所谓“涌现”，不过是还没有搞清楚其中的机理机制，解释不清楚，便称之为“涌现”。但很多时候我们希望“可解释”，无论是城市问题的研究，还是大模型工作原理的研究都是这样。

然而，另一个角度，无论是做城市设计还是做规划决策，其实都不是在追求唯一正确的解，而往往只是提出一个相对平衡合理的方案，成为讨论和共识的平台。在这个意义上，大模型的能力十分匹配：通过人机协同完成对复杂系统的模拟和推演，可以实现更高效的决策。但需要再次强调，不要试图让大模型追求“唯一正确解”。

2. 应用架构：AI Agent和RAG

（1）AI Agent

AI Agent是目前业内关注度最高的大模型应用架构。吴恩达认为，如果你在期待 GPT-5 等更好的大模型，其实你可以用 Agent 得到类似的更好的结果。AI Agent以大语言模型为大脑驱动，具有自主理解、感知、规划、记忆和调用工具的能力。其应用方向大致分为自动化智能体和拟人智能体两类：

自动化智能体，旨在实现复杂流程自动化。当给定智能体一个目标时，它们能自行创建任务、完成任务、创建新任务、重新确定任务列表的优先级、完成新的首要任务，并不断重复这个过程，直到完成目标。比如告诉机器：设计一个特定尺寸的卧室，里面有什么功能、什么家具。机器可以基于对任务要求的理解，自动的生成指令，调用画图软件，并自主操作，画出设计图纸。自动化智能体可能由此带来软件行业交互方式的变革。近期看来，其难点除了大模型能力，还在于系统接口的对接框架以及对现有接口的适大模型化改造。

拟人化智能体，旨在模拟人的情感和人际交互，通常对生成准确度要求不高。大模型的不确定性在这里成为优势，可以实现多样性的模拟。在多智能体环境中，还可能涌现出超越原设计的场景和能力。拟人化智能体通过提供较高情绪价值的陪伴，正在成为新的精神消费品。而在让城市研究兴奋的社会模拟、城市模拟领域，虽然斯坦福25人小镇表现惊艳，但用于严谨的规划分析，甚至是政策决策支撑，还没有看到具有可行性的深入研究。

（2）RAG

如果说AI Agent还显得有些遥远，那RAG架构则是短期看来非常现实的方式。

RAG，检索增强生成（Retrieval Augmented Generation）。简单说就是通过外挂知识库，额外给大模型一些专门的领域知识，大模型从中检索正确的答案。类似于给模型出一道阅读理解题，让它先阅读给定材料，然后回答问题。这种方式显然比直接做问答题靠谱许多，可以有效解决大模型的幻觉、知识实时性、数据安全、训练时间长、需要高算力等问题。

上文中提到的政务服务场景，即是基于RAG架构。对于更广义的城市领域，我们可以通过梳理构建子领域的知识库，实现知识的管理和生产。在这里，相比于大模型本身，专业的知识库可能更为关键。在金融、法律、医疗、建筑等领域，许多行业头部企业已经在投入行业知识库的建设，也成为沉淀行业/领域知识资产，挖掘数据价值的新手段。

城市领域知识具有复杂度高、长尾碎片知识多、常识性强等特点。综合第一章中对于精调型行业大模型的讨论，我们对于哪些知识适合外挂，哪些知识适合基础模型内化，既缺少认知，也缺少尝试，更不用提如何将领域知识结构化。而这，极有可能是一个行业与大模型结合的起点。换句话说，是大模型时代，一个行业能够持续迭代更新的立足点。

3. 数据知识：顶层设计与行业协同

知识或者说数据，是城市大模型的关键。而在现实中，城市又会分解成产业经济、建筑规划、交通市政、城管、应急等各个子系统，各子系统都存在建设行业大模型的需求，而其共同的空间属性，又会最终将这些大模型进一步整合。

各行业独特的法规、规范、标准等，是大模型行业应用的共性基础，涉及版权商用问题，需要各行业主管部门牵头进行顶层设计和统筹规划，以确保行业共性知识库的合规性，并推动建立一个可扩展、可协同的行业大模型技术架构。这种架构应当促进产业链各环节之间的有效沟通和协作，使得各环节能够独立构建和应用其领域模型和企业模型，同时实现跨领域的协同和整合，从而提升整个行业的竞争力和创新能力。在城市领域，由于涉及大量行业的范式和工作流变革，这种统筹尤为必要。

4. 成本效率：缺少性价比如何配得起

一年多以来，各行各业对大模型热情高涨。聊过的需求很多，落地的需求很少。一方面是因为需求方对大模型技术的理解比较少，提出的需要比较“科幻”，另一方面，是出于经济性的考虑，绝大部分场景难以构建商业闭环。有技术实现方案，但没有性价比。尽管我们说城市大模型就是应用于市场失灵的公共服务与公共管理领域的大模型，商业变现不是第一要务，但性价比总归是不能太离谱。

其实不止是行业大模型，成本，是目前使用LLM模型应用都无法绕过的问题。从训练的角度，去年我们在某项目中，仅30MB的文本数据，在百亿参数模型上一次训练的成本接近万元。且训练效果在训前并不可预知。可能经过几轮迭代训练，仍达不到预期。尽管这个成本已经并还在下降，但依然还是贵的。

从应用开发的角度，按照输入和输出token数量收费方式，过于复杂的任务导致Token过量消耗。一个复杂任务一晚上跑掉一栋别墅的钱不是玩笑。

模型的部署与服务也是一大笔钱。虽然从千亿参数到百亿参数，这个费用可以有数量级的下降，但由于效果价值不易评估，也很难看到商业闭环。

更宏观的考虑人工智能的能源成本，就更算不过来了。上文中的斯坦福25人小镇这类案例，从成本，效率等角度上来说，都只存在于实验室中，没有落地的可能性。

人类大脑有100多亿个神经元。大模型参数在千亿规模，可以类比千亿个人工神经元。目前，人类神经元的协同效率还是远高于大模型的，对于大部分专业性的任务，短期内还是人更靠谱。

只有在任务的通用性足够强，可以代替足够多人，或者对计算量、计算速度等需求超越人类极限的情况下，大模型才有性价比。

5. 从大语言模型到跨模态

本文中所指大模型均是大语言模型，没有涉及多模态。多模态是大模型未来的重要方向早已是业内共识，但它到来的如此之快，还是超出了几乎所有人的预期。从通用大模型标配的文生图，到Sora突破了文生视频，在 Transformer框架下不断 Scaling up，涌现出越来越丰富的认知能力。

城市领域相关学科知识天然就是多模态的。规划、建筑、景观等设计和工程都是以文本、图纸为基础描述空间形态，交通、市政等领域还会有更丰富的特殊模态数据。

Transformer可以通过文字学习，承载历史文化、生活经验、地域特征等隐性空间知识，以及法规、规范等结构化知识；而Diffusion（扩散）模型则通过大量设计作品的学习，可以形成特定的设计风格，并进行基于图像甚至三维的创作。Sora 让我们看到了视频生成技术中可以形成高度的三维一致性，也就是可以通过类似方法直接生成三维模型。

最终，当大模型对以语言为表征的社会空间，以及以三维空间为表征的物理空间，具备了理解与创造的能力，并将它们连接在一起，便有机会真正理解并创造未来城市。

游戏故事2——AI智能体Voyager称霸Minecraft

还是以一个游戏故事作为结尾吧。

这同样是23年初的一个发布：在minecraft我的世界的游戏里，一个名为Voyager，由大语言模型驱动、可以终身学习的AI智能体，利用GPT-4不停地探索世界。它不断的开发越来越复杂的技能，并始终能在没有人工干预的情况下自驱的进行新的发现。

它通过自主学习，掌握了挖掘、建房屋、收集、打猎这些基本的生存技能，还通过自我驱动，不断探索着这个神奇的世界，去到不同的城市，路过一片片海洋，一座座金字塔，它甚至还会自己搭建传送门。它会扩充自己的物品和装备，会配备不同等级的盔甲，会用栅栏圈养动物。在不同的环境里，它会给自己提出适当的任务，如果发现自己是在沙漠而不是森林中，就会在学习收集铁之前学习收集沙子和仙人掌。基于环境反馈来完善技能，并将掌握的技能记入记忆。

由此展开，我们希望有个AI，我们给他设一个任务：“对城市不断改良与优化，城市明天更美好”。它便会根据当前的技术水平和城市状态提出适当的任务，相当于做城市体检和城市规划；然后基于环境反馈来完善策略，将掌握的策略与反馈记入记忆，并在类似情况下重复使用，相当于落地实施，并在实施过程中不断的深化对城市的认知，动态的修正规划和策略；因为城市的改良是没有最好只有更好的，所以它会持续探索城市：以自我驱动的方式寻找新的任务，让城市明天更美好。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业