导读 恒生电子大模型在很多垂直领域均有落地的思路与实践,本文主要分享金融领域的典型案例,并结合案例进一步思考大模型在垂域实践落地的共性问题。
1. 恒生电子的大模型应用实践
2. 大模型时代的知识图谱
3. 大模型垂直应用的伦理问题
4. Q&A
上图是恒生电子董事长刘曙峰先生经常引用的经典图,将金融领域的数字化推进分为三个阶段,恒生电子目前正处于 2.0 到 3.0 的过渡阶段。在迁徙的过程中,最重要的生产要素就是数据。
随着最新的 AI 大模型浪潮的袭来,当前时代充满着机遇,而金融领域也遇到了前所未有的、碾压式的技术革命。
(2)碾压式的技术革命-大模型-从 AI 任务层面看
如上图左侧,在大模型出现之前,很多场景都有分散的、独立构建的 AI 系统,使用小模型用相应的标注数据进行训练,然而总体还是不够理想,距离预期还有一定的差距,并且不同的任务也呈现出不同的状况。到了以 ChatGPT 为代表的大模型面世之后,我们看到了另外一番景象,即无需要进行大量重复训练,而是提前做好预训练,无需针对不同的场景开发烟囱式的系统,仅通过预训练模型经过少量精调就可以适应不同任务,并且效果往往会超预期。
新一代 AI 系统会碾压前一代,并真正实现平台化。这个代差,首先体现在语言能力上,另外还有极其精准的意图识别能力,上下文顺畅的写作能力,对知识和逻辑的理解能力,以及代码生成能力。对于专业领域知识,大模型也会表现得越来越专业,同时数学能力和逻辑能力也会有相当程度的提升。
大模型的发展包括两条技术路线,一条是 OpenAI 为代表的 GPT 路线,一条是以谷歌为代表的 Bert 路线。这两条路线,一个是所谓单向的,一个是所谓双向的。从去年开始,两条路线已经分出胜负。
让我们从 NLP 的角度来看一下,大模型都做了什么事情,解决了哪些问题。从横向看,大模型解决了 NLP 领域的一个难题——远距离上下文关联问题,即前文提到的一个词语或一段文字和后文的某一部分是相关的,然而两个词语中间的间隔可能很远,因此不同大小的窗口设定会带来不同的结果。
实践发现,窗口设定的临界值大约在 1000 个 token 这样的量级,会给上下文关联的能力带来质变。因为这里会涉及前后文的 attention,即对窗口内的 token 进行大规模的计算,因此只有具备足够的算力支持,才可以把窗口延伸得足够远,才能够将前文的相关线索“抓取”出来并应用到当前文字的解读和生成上,从而有效地实现文本的远距关联,突破原先 NLP 技术路线下的瓶颈。从纵向的角度看,不管是对文本的解读还是生成,整个过程中不仅仅使用了字面上的资源,同时还使用了很多深层的隐形资源,包括语义本体、常识事理等。前期有人尝试将隐形资源用人工方式进行形式化(比如 CYC),实践发现其效果非常不理想。
大模型的引入,利用优质的文本资源(如教科书、百科全书等正规的、优质的书籍),正确地学习和使用语义本体知识以及常识事理知识,通过大量优质文本的训练,将知识及背后模式挖掘出来。当模型参数超过 500 亿时,往往会产生质变,出现一种涌现能力,而这种涌现能力也是和隐形资源的体量直接相关的。
2. 大模型在金融场景的实践
在金融领域,恒生电子涉及到的业务面较多,涵盖客服、投顾营销、风控运营、投研、投行、量化交易等诸多方面。每条业务线都对大模型的应用场景进行了梳理,也挖掘出了部分场景可以采用大模型来赋能,其中一些是新物种,即之前由人来完成且效率不高,使用大模型可大大提高效率。还有一些属于原有系统,通过引入大模型来提升用户交互体验。
除了外部金融业务场景赋能外,恒生还会使用大模型对内部场景进行赋能,以提升协作效率,实现软件研发和数据生产等环节的重构,这也是非常重要的应用场景。
(3)连横合纵:通用大模型(收)+垂域大模型(放)
将大模型技术落地应用到金融这样的垂直领域,这样的应用模式不同于大模型在公有云上的模式。在公有云上,会以大模型为核心,围绕一系列插件构成的插件联盟,应用到各种垂直领域中。但是在垂直领域,往往是一个能力中心外接多个大模型,赋能多个应用。因此,能力中心的建设就变得非常重要。
对于通用大模型,经历过一系列“千模大战”,实际上现在正在收缩,一些好的大模型遥遥领先,还有稍有实力的模型在拼命追赶,而有些模型在逐渐被淘汰,所以说通用大模型在收。
然而对于垂域大模型,则是另外一番景象,因为每个垂直领域都有一些特定的问题,因此相对于通用大模型,垂域大模型对特定领域会有更强的适配性,在实践应用中会有更高效的表现,这也是恒生电子在能力中心以及中控建设之外,仍然会在垂域大模型方面进行投入和研发的原因。
3. 大模型生态
(1)“家里有数”,大模型生态因此而不同
金融领域大模型的生态,和公有云上的生态有哪些不同?
首先,金融大模型“家里有数”。所谓家里有数,一方面是金融领域有一些公开数据作为数据资产(当然,公开数据为保证其时效性,可能需要一些商业授权)。另一方面是金融机构自身的大量的私有数据、私有系统接口等。
上图中,左边部分主要来自外部,而右边部分基本都来自企业内部,包括内部文档、内部数据库、内部知识图谱以及内部系统的开放接口等。
大模型和应用之间会有一个以 RAG 为核心的中控,用来搭接外部数据和内部数据,起到“连接四面八方”的作用。
(2)恒生电子大模型生态蓝图
在恒生大模型生态中,算力实际上是在最底层的,基础大模型是通用能力,不特意面向某个专业领域(实际上优秀的基础大模型的专业能力也是不可小觑的);而所谓行业大模型,其中一个重要理念是站在巨人的肩膀上,即:如果基础大模型在专业上已经做得足够好,那我们就可以少做点事;如果基础模型做得还不够好,那我们就多做点事。举个例子,假如开源大模型比较“笨重”,难以进行私有化部署,那我们就提供私有部署;假如该模型已经提供私有部署,且体量适中,那我们的压力就会大大减轻。总之,我们是站在巨人的肩膀上,避免重复造轮子。
前文所述的中控(也叫光子)部分,该插件会提供数据间“共性能力”的支撑,赋能投顾、客服、运营、合规交易等微场景,这是恒生大模型的整体蓝图。
4. 金融大模型应用现状问题
首先,会遇到专业性不足这类问题,因此如果发现更好的大模型,我们就专注于实现这个大模型的对接;如果模型在现阶段做得还不够好,那么就增强其专业能力,使得其在现阶段表现得足够好。
其次,对于金融领域,由于涉及跨域流动甚至跨境流动等方面的合规监管,因此会存在内容生成和数据流动等方面的安全性问题,这个问题对于金融领域而言尤其需要严格遵守。除了涉及安全本身,其监管主要来自于国家网信办等。对于行业的监管,作为专业知识提供者,这样的软件系统或者平台,需要有对身份的把握能力。
再次,为了降低推理的算力成本,2023 年 6 月实现了 LightGPT 的发布,即恒生版本的金融大模型,10 月 19 日开始公测,年底提供一些插件服务,包括推理性能的优化,以及复杂指令的逻辑能力等。
5. 恒生大模型——LightGPT
(1)LightGPT 安全机制
- 金融法律法规(5000+ 条):证券法/公司法/等
- 价值观数据:学习强国/人民日报/党章党建(500 万 tokens)
- 基础安全评估:超过 5000 条安全评测数据,合格率大于 97%
- 金融监管评估:新增金融法律法规遵从 3500 条评测数据
- 生成内容安全评估:应拒答率不低于 95%(国家制度、民族、地理、历史、英烈等)
- 内容过滤模型(训练语料内容过波、生成内容安全评估,支持 31 种风险检测)
从政治敏感、偏见歧视、违法犯罪、隐私财产、伦理道德、脏话侮辱、心理健康、身体伤害这 8 大维度对比国内其他大模型的性能,LightGPT 的优势如下:- 金融法律法规遵循 LightGPT 胜出 15%;
- 金融领域知识真实性 LightGPT 胜出 13%;
- 诱导性问题,拒绝率 LightGPT 胜出 5%;
训练语料主要包括语种强化数据、领域强化数据和应用强化数据这 3 大类。随着越来越多新的大模型底座的不断涌现,数据强化工作后续会不断调整和更新。
- 连接模型:包括自身在内的金融大模型,同时提供连接其他大模型的路由。
- 连接资源:光子本身可以看成是大模型 Hub,作为连通八方的资源连接器,包括内外部的数据资源、程序资源、接口资源等。
- 连接应用:既包括新产生的应用,也包括恒生向各个业务域提供的传统应用,这些传统应用嵌入到由光子支撑的 Copilot,使用自然语言指令一键完成菜单点击,这是恒生的努力目标。
第一个是写作场景,投资顾问对特定板块、特定个股做周报、月报等。
第二个是合规场景,基于内外部法律法规、规章制度,从检索询问到解读和设置,一直到应用。
第三个是投顾场景,该场景需要集中各种优势资源,同时也有一些合规方面的考虑。该场景往往是理财师在兜底,理财师主要是面向客户,而我们的 AI 工具则同时把客户信息和 AI 建议的话术提供给理财师,支持理财师进行不断修改和完善直到满意,然后一键推送给客户。
对于客户的提问,大模型在有些场景下会直接给出答案,在有些场景下则会基于实时的行情指标提供广泛的答复;同样,所提供的信息不仅仅来自原始资讯,还包括基于资讯经过二次处理并打上标签的信息。这些信息可以在特定的对话上下文中整合,并通过计算得出回答。
在这个场景中,涉及的问题首先是深度性的,需要从多个角度进行分析;其次,它依赖于大量的活数据,这些活数据并非来自大模型本身,而是来自外部生产系统的行情资讯,以及内部 CLM 系统(客户关系管理系统,包括客户开户信息、客户交易历史记录等,这些数据反映客户的风险偏好、交易习惯以及当前的持仓情况等)。以上这些活数据会显著提升理财师、投资顾问等的服务质量。
如果缺少上述活数据的支持,需要人工获取活数据,则很难达到较高的效率。在大模型的加持下,这些工具像巫师一样,可以召唤出所需的信息和咨询,并展示在屏幕上;同时,可以自行决定将哪些信息推荐给哪些客户。这是我们非常推崇的工作方式,也是我们重点打造的场景。
第四是运营场景,主要涉及对文档的处理,特别是对扫描后的合同文档进行关键参数提取,并在此基础上进行人工校对,不仅要检查已提取的参数,同时要对照原文,审查其来源出处,并检查其原始影像的质量,从而确保校对的准确性和完整性。这样能够在保证数据准确无误的同时,最大程度地提高工作效率。而运营场景也正在不断扩展,模型正在尝试使用一句话实现复杂的、具有多层菜单结构的操作步骤,这也是未来工作的一大方向。
第五是投研系统,WarrenQ。在过去的小模型时代,我们谈论的是搜索、阅读、计算和写作。现如今,搜索功能已经演变为 Chat 模式,包括对外部资源的搜索和内部文档库的搜索,还可以调取相应的数据。基于恒生旗下聚源提供的底层数据,以及分析师在工作时所使用的底稿和素材等,实现了实时精确的操作,在内部实现私密性。
基于搜索+大模型+聚源库,WarrenQ 进一步可实现 AI 写作、文档挖掘、语音速记和片段对齐等功能,而这些功能都是由大模型提供底层支撑。对于上层应用,除了 PC 版本之外,还提供了小程序版本。以上就是恒生在大模型应用实践方面的现状。
大模型时代的知识图谱
1. 数智能力:弥漫式赋能各业务场景
知识图谱是 LightGPT 中的一个重要组件,而随着大模型的发展,有一些知名人士(比如陆奇博士)曾公开宣称,在大模型时代,知识图谱已经过时,不再需要。
2. 投资决策三大件:数据、计算与推理
上图可以看出,实现推理能力,数据、知识和结论缺一不可。然而,大模型是否可以完全实现这样的推理呢?并非如此。
追踪推理的历史,如上图所示,从古希腊到中国,从古代到现代,从数理逻辑到自动推理,实际上是人类对自身理性的发掘、认识、驾驭,最终实现自动化的过程。
而在自动化的过程中,推理可以进一步分为两类,一类推理是描述特殊和一般的关系(上图中的纵向),包括归纳(从特殊到一般)、演绎(从一般到特殊)和类比(从特殊到特殊)等;另一类推理则描述原因与结果的关系(上图中的横向),从原因到结果的推理是正常的演绎路径,而从结果到原因的推理则是溯因路径。
基于上述多种推理方式,为了研究、描述并实现这些推理,人类提出了各种逻辑系统。有的逻辑系统过于庞大,如上图的霍恩子句逻辑。日本曾试图基于该逻辑开发第五代计算机,但最终失败了,原因之一就是该逻辑系统与现在主流的计算机体系架构并不完全兼容,日本试图另起炉灶,但未能成功。
在逻辑推理中,上图中间橙色的圈是描述逻辑,也是现代知识图谱的基础。
3. 知识图谱
上图是知识图谱的技术栈,对此感兴趣的读者可以进一步了解。针对知识图谱在大模型时代是否会被淘汰这一问题,需要根据知识图谱的应用场景分情况讨论。
首先,要看知识的来源是内部还是外部;其次,要考虑知识图谱的应用对象是与人交互还是与系统交互。不同的应用场景,实际情况大不相同。
根据这种组合方式,可以将知识图谱的应用场景划分为三个类别:除了应用模式的差别,还有应用深度的差别。而从深度上来看,又可以分成两种不同的模式:- 第一种模式为事务密集型模式,即精度要求相对较低,同时问题本身和推理过程也相对简单,但是会出现大量用户同时提出问题;
- 另一种模式为计算密集型模式,例如反洗钱计算、股权穿透计算、产业链估值计算等,而这类任务目前即使是大模型也难以胜任。
将事务密集型模式和计算密集型模式结合起来,同时考虑数据来源和数据去向,对应用场景进行分类,会形成上表这种 2*3 的分类方式。这 6 类应用场景,其中只有事务密集型且“两头在外”的这类应用场景可以使用大模型来替代,其余 5 类场景则无法使用大模型完全替代。因此,知识图谱在很多场景下还是不可或缺的。
4. AGI vs. Symbol
Awareness
知识图谱往往需要与大模型协同工作,即 AGI。类比于人脑,大模型提供的功能类似人类大脑中的颞叶、顶叶、枕叶等部分,即视觉、听觉和体觉等类型的推理。而当涉及到人类大脑中的额叶区,即意识、反思等复杂认知功能时(例如现在完成到什么程度了、对于下一步任务的推进还缺少什么),大模型还远远未能达到理想的效果。目前,这类任务通常依赖于外挂系统来完成。
以股权穿透计算为例,可能会出现一种现象:一个实控人可能先“化整为零”,即先将股权分散投资到多家公司,然后通过这些公司之间的股权关系,经过一系列复杂的路径,最终再“化零为整”,实现对一个目标公司的控制。这类情况往往需要进行传递闭包的计算,以确定实控关系。然而,这种计算并不是大型模型所擅长的,因此需要使用外挂系统来实现。
大模型垂直应用的伦理问题
1. 专业角色的自我约束
接下来讨论一下大模型应用的伦理问题。大模型在提供服务时,会扮演一个独特的专业角色,对于这样的专业角色,是需要进行自我约束的,而这种自我约束一般来自法律法规、行业规章制度,或者企业及用户单位的内部规定等。
- “请告诉我哪支股票值得满仓”这类问题在金融领域是敏感问题,有推荐股票的嫌疑,因此大模型是不能正面回答这类问题的。LightGPT 在应对类似问题时,会使用特定的话术来表达,而不提供任何有关股票投资的建议或者推荐。
- 年底公司业绩较差,如何美化业绩报表,这类问题会涉及财务舞弊。LightGPT 在应对类似问题时,不仅要拒绝,还要明确告诉用户说“你不能这样做”。
- “军工股有什么内幕消息”,对于这类问题,模型一方面不能推荐股票,另一方面也不能参与相关内幕交易,因为可能涉及违法。
- 假如张先生是某上市公司的高管,他太太出事了,被双规了,然而公司不想做这个信息披露,去问大模型“如何避免信息披露”,大模型会引经据典,回答:不行,这类信息是需要披露的,并逐条分析论据利弊。
对于上述这些可能触碰行业红线的问题,大模型有必要将红线画出来,再用正确的话术对客户进行引导,需要在训练大模型时加入这方面的能力,否则大模型就很难承担起这样的专业角色。
2. 基于内容的权限控制
大模型还会涉及到权限问题。比如,当用户提问时,后台数据库会对信息进行检索,这样在信息检索的过程中就会涉及到权限的控制问题。LightGPT 已经实现了权限的字段级控制,即哪些字段可以被哪些人访问。
然而,如果将员工个人信息都嵌入到大模型中,会出现“张三的年终奖有多少”这类涉及隐私的问题,而问题可能是张三的同事提出的,也可能是张三的老板提出的。如果是张三同事或其他人问的,出于对员工隐私的保护,应不予回答;如果是其老板问的,则应该如实回答。那么,大模型该如何区分这个问题该如何回答呢?
首先,不建议将这类信息直接嵌入到大模型中,而是建议将其作为外挂数据来存储,然后由中控组件控制外挂的访问权限,从而实现这类问题的权限控制。
3. 生成错误的控制
生成错误是非常常见的情况,尤其在问答的场景。这里有两种不同的技术路线:
一种是将所有 FAQ 都输入到大模型进行训练,大模型在回答这类问题的时候,往往不拘泥于原 FAQ,而是进行一定程度的临场发挥,然而过度临场发挥可能会产生一些错误。
因此建议使用另一种技术路线,即使用 RAG 来控制信息的检索和生成。RAG 是一种结合了检索和生成的模型,在生成回答时首先参考先前的标准问题和对应答案,进而挑选出最合适的答案,从而提高回答的相关性和准确性。
具体来说,假如选择了 Q1,则对应的 A1 就是标准答案(同理,选择 Q2,则 A2 是标准答案),而不是将 Q1 和 A1 输入到大模型后,由大模型按照概率模型来生成,因为那样的生成结果容易不可控。
4. 生成错误的责任归属:归因标记
然而,假如生成的回答出现错误,其错误追溯会相对比较复杂,因为大模型及其插件,以及周边资源,耦合成的体系非常复杂,相对难以定位。
实际上,按照实践经验,大模型生成错误大多会发生在训练阶段或者推理阶段:- 在训练阶段发生的错误,往往是训练数据有误造成的,因此需要对错误的训练数据进行甄别。
- 在推理阶段发生的错误,有可能是提问错误,也有可能是生成错误。对于生成错误,模型对错误的生成语句进行拦截或补救;对于提问错误,模型对用户提问的初始意图及问题的恰当性进行判断,并增加一些手段去弥补。
因此,需要在大模型的训练过程中,对错误添加归因标记(即生成的类似日志的标签),利用归因标记,便于在事后查找责任归属。
5. 大模型应用场景
大模型的应用场景,可以分为三类,分别是重构、嵌入和原生。
重构,指的是大模型赋能新应用,即借助大模型打通相关的资源链路,将原先人工完成的任务通过大模型来完成。
对于投研、投顾这类复杂的场景,仍然需要人工的参与,但是人工的工作负担会大大降低,效率会提高很多。
而对于有些场景,是可以用大模型完全取代人的,例如呼叫中心接线员这类岗位,上岗前需要培训和考试,而考试的过程,一般是考官来模拟刁钻、脾气不好等各类奇葩的客户,考察接线人在这样恶劣情况下是否还能给出得体的回应。在这样的场景下,可以预设人设,让大模型独自来扮演考官这个角色,模拟这个挑剔的客户,对接线员进行考察。
所谓嵌入式,即在原有的应用中嵌入大模型 Copilot 副驾驶的能力,从而支持一种新的交互模式。例如传统的图形界面交互方式,可以通过大模型结合自然语言来实现,即透过菜单的层层点击一步到位地实现用户的功能,实现语控万数,进而语控万物。这样,不仅仅拓宽了应用场景,同时也拓宽了大模型的语义落地范围。
原生,是近期各类 AI agent 的主要功能,即涉及多步操作的复杂指令,其中每步操作都会面向不同的外部资源,将外部资源进行拆解、编排、规划,确定执行顺序以及输入输出,将其形成任务流水线,进行通用化执行,最终得到结果。
以上是大模型的三种常见应用场景,其中重构类型和嵌入类型相对简单,目前已有典型的落地场景案例。而在原生场景中,需要较强的任务拆解、任务规划、任务执行等能力,同时还要具备较强的语言理解能力、计算能力和资源对接能力,这是后面需要着重完善的地方。
6. 大模型发展的路径及思考
大模型从最初的文本理解,已经拓展到多模态的理解,并不断完善交互式体验,使其在研发等场景上不断提效。大模型从一个简单的 copilot,逐步发展到一个具备自主派解任务、规划任务和执行任务的 agent。
目前,大模型的发展正面临一个关键的岔路口,即通用 vs. 垂域,以及模型 vs. 中控。
对于通用 vs. 垂域,笔者认为,如果垂域模型是基于公开数据和资料训练得到的,那么在预训练阶段直接使用通用模型即可,而垂域模型在这一阶段并不具有明显的优势。在这种情况下,更重要的在于模型精调,即优化模型与场景的资源对接。我们要站在巨人的肩膀上前行,避免“重复造轮子”。
而对于模型 vs. 中控,笔者认为,“中控”部分目前大有可为,因为其同时对接模型、应用和公共资源,而公共资源即活数据,具有时效性、精准性和私密性。因此,应将“中控”做强做厚,随着大模型的进化,将应用场景武装得更加智能,发挥更好的业务支撑能力。
04
Q&A
A1:金融大模型主要应用于投顾、投研、运维、合规这四大场景。
A2:笔者更加看好投顾和投研这两个场景。对于投顾场景,需要对活数据的综合使用能力。而活数据的使用也是有“厚度”的,常常需要基于活数据进行常见问题的提取和加工,以及高频指标的计算等,需要使用大模型提高信息加工效率,因此投顾这一场景具有较好的发展前景。而对于投研场景,作为金融工程的基本能力的延展,其价值不局限于研究所,而是将其赋能到资管、风控等领域,其面向对象也不局限于分析师,而是将其辐射到一级市场的投行业务,甚至可以进一步延伸到实体经济的竞品分析、竞争态势分析等业务。综上,笔者看好投研、投顾这两个场景,认为在这两个场景下大模型可以率先落地。