我要投稿

深度分析--多模态大模型在金融行业应用解决方案 2024

发布日期：2024-08-08 06:11:37 浏览次数： 4150

作者：AI云原生智能算力架构

微信搜一搜，关注“AI云原生智能算力架构”

1、应用场景与技术架构选型知识密集型数字化应用

金融行业因其高度的专业性和对精确度的严格要求，成为一个知识密集型的领域。它涵盖了广泛的子领域，包括银行业务、投资、保险、资产管理等，每个领域都有其独特的术语、规则和业务流程。

在银行行业，理财产品经理需要在充分理解监管合规政策的前提下，设计有市场竞争力的产品；在证券行业，投研人员需要阅读大量的研报和资讯，做出对市场的判断，给客户提供有价值的投资建议；在保险行业，大量复杂的核保 / 核赔规则，业务员需要熟记于心并在展业时能高效查阅。

而大语言模型作为一个参数化的知识容器，其最突出的能力就是构建世界模型、理解人类知识，并以自然语言的方式进行交互。大模型通过学习广泛的语料，能够积累和反映不同领域的知识，包括金融行业特有的概念、术语和逻辑关系。这使得大模型能够在上述金融行业各类知识密集型场景中，提供自然语言理解和生成、知识检索与问答、信息总结摘要等能力。

以保险行业为例，核保是一个非常重要的业务流程，保司有大量的业务员在外面做拓客，为 C 端用户设计保险方案。在这个过程中，还有一类角色叫核保员，在投保阶段帮助业务员判断是否能出保单，并给出建议方案。这里面涉及到大量的核保规则业务知识，我们希望能让大模型学会理解这些并运用在业务流程当中，提高核保员工作效率。

典型的用大模型来重构核保的业务流程，如上图示意：

原始核保规则：核保规则源于保险公司内部的核保政策，有集团级别的、每个省市分公司也有自己特定的规则，需结合起来用，这是核保决策的依据。这类知识的特点是，内容多、逻辑复杂、还有很多行业术语，一般核保员上岗后学习 6 个月，才能开展核保业务。

大模型核保知识构建：核保政策的格式和来源非常多样，有 pdf、word，甚至是某分公司发的一封全员邮件。这些知识需要被构建成一种层次化的知识体系，便于更新、维护，以及被大模型理解与应用。在业务流程中，大模型需要从与业务员的对话中提取出核保要素，例如：年龄、地域、工种。当要素不完备时，以反问等方式让业务员提供，直到收集完整下一步推理决策所需信息。

大模型推理决策：基于上一步构建的知识，大模型进行不同的逻辑处理。

简单分有三种：

a）准入性判断，一些关键要素若不符合，可直接拒保；

b）条件性推理，依据各种核保规则，逐条检查客户提供的要素是否满足；

c）推荐投保方案，若有不符合的要素，大模型给业务员调整的建议，改变核保要素，直至承保。

在上述业务流程重构过程中，面临最大的两个技术挑战是：核保规则量多质差、推理逻辑复杂。

因此，在方案上采用金融知识增强 +Multi-Agents 框架来解决，如下图所示：

金融知识增强：原始核保政策来源非常多，上千页的 Word、复杂单元格结构的 Excel、甚至是一封核保政策调整的邮件。面对此类多源异构数据，需要先做格式和内容的治理，形成一种分类、分级、分块的立体化通用知识表示，便于长期维护更新，以及被下游大模型 Agent理解与使用。在过程中，还需要引入金融领域专有知识做增强，例如：对行业和工种的分级分类、专对保单版面的内容识别算法。

Multi-Agents 分治：在试验过程中我们发现，大模型的能力也是有上限的，面对的知识太多或规则太复杂，也会有不稳定输出的情况。因此在通用知识表示之上，按任务类型把整个核保过程拆解到不同角色的 Agent 上完成，并由中控协调 Agent 统一协调和路由。最终面向业务员，大模型扮演“核保员”，以多轮会话的方式提提供推理决策和承保方案推荐。

全链路数字化应用

大模型在金融业务的全流程中扮演了重要角色，其支撑作用体现金融行业的不同业务场景。

客户服务与关怀方面，大模型能够提供 24 小时不间断的客户服务，包括咨询解答、产品介绍、客户关怀、投诉处理等，提升用户体验。

风险管理与信贷评估方面，大模型帮助金融机构进行信用报告生成、欺诈检测和风险评估，提高贷款审批的准确性和效率，减少人为错误和潜在的信用风险。

精准营销与客户洞察方面，创造多样化、创新且风格连贯的跨媒体营销内容变得轻松自如，这包括社交媒体帖文、广告标语、宣传海报、创意视频剧本等，确保每项内容都能精准对接目标受众。通过对客户数据的深度分析，大模型能够构建精准的用户画像，帮助金融机构设计个性化营销策略，提升营销活动的转化率和客户满意度。

投资咨询与资产管理方面，大模型能够分析市场数据、新闻资讯和经济指标，生成投资建议和资产配置方案，辅助投资者做出决策。对于机构投资者，它还能提供复杂的财务模型分析和投资策略优化。自动搜集、整理并分析大量研究报告、公司公告和宏观经济数据，为分析师和投资者生成深度研究报告，提高研究质量和速度。

运营优化与自动化方面，在后台运营中，大模型可以自动化处理交易结算、合规审查、文档管理等工作，减少人工操作，提升运营效率并降低成本。风控作为金融的基石，正遭遇多元化的挑战，这些挑战随技术演进、市场波动及欺诈策略的迭代而日新月异。以下是当前尤为突出的几个难题：

1. 业务冷启动没经验，上线周期长：新业务上线，缺少相关的冷启动经验和数据。上线周期长，容易错过商机。

2. 风险变化快，风险决策响应慢：数据分析周期慢，业务人员给技术人员提需求经常需要等排期。策略 / 模型构建和迭代周期慢，无法跟上快速变化的风险

3. 模型的敏捷性与深度构建：金融市场瞬息万变，欺诈手段层出不穷，要求风控模型不仅要具备高度的适应力和灵活性，还需迅速掌握新兴风险模式，同时维持对既有风险的严密监控。

这一挑战促使模型复杂度与更新速度的需求不断攀升。通过大模型的风控多 agent 体系，可以很好缩短风险决策周期，提升风控人效，响应快速变化的风险。

智能策略助手集成了专家的风控策略知识库，可以帮助业务实现快速冷启动。通过自然语言的形式，可以轻松进行策略分析、上线测试、部署和生成报告，及时响应快速变化的风险环境。

智能数据助手通过内嵌的报表知识以及 NL2SQL 能力，使得用户无需复杂的编程过程，只需通过自然语言的交互就能快速构建所需的报表，进行指标查找和数据诊断。

智能建模助手提供建模功能、深度变量分析报告和一键部署功能，能够大大提升工作效率和模型的准确性。

多模态数字化应用

随着大模型技术的高速发展，尤其 OpenAI 发布“Sora”后，加速从自然语言向多模态大模型的演进。

多模态大模型不仅能够进行图像、视频的要素识别和场景提取，还可以根据提取的信息创作出更多原创图片和视频；同时多模态在语音上支持人机交互语言接口，不需要转文字，就可以在语境中识别复杂和抽象概念，加速智能客服拟人化服务和定制化服务效果。

多模态大模型已经开始在各种业务领域进行探索，例如：智能催收、智能客服、智能推荐和智能运营等领域，随着多模态大模型与业务创新场景的持续性融合，展现其更高的用户粘性和商业价值，必将开启了企业构建多模态数字化应用的新时代。

智能提醒：企业通过多模态大模型，将外呼语音通话进行识别和数据抽取，构建用户意图和客服话术的知识库，同时通过语音特征分析，识别用户的个性化特征，并与用户特征知识库进行比对和更新。在实时和离线语音交互过程中，通过规则质检和风控，确保人工或机器人的回复符合领域规范，如果存在舆情风险，会提交人工复审，再进行知识库信息更新。如果符合规范，将进入新一轮的智能语音交互，通过大模型判断历史交流的用户意图，结合用户特征，进行个性化语音话术播报（例如：方言定制化），直至达到本通外呼目的为止。

智能客服：企业可以通过多模态大模型，将语音客服、私域咨询和售后交流的文字、图片和视频信息进行识别和数据抽取，例如：将用户提交的保单、病例等进行识别和数字化，存储到专属客服知识库和用户特征知识库，通过智能质检和风控，确保提交和回复数据的准确性和安全性。同时根据客户意图识别和个性化生成，满足用需要的回复或报告，再根据用户个性化特征生成专属文字或语音和视频回复，最后根据用户评价和人工抽检，收纳知识语料。

智能推荐：根据企业业务场景和市场规划目标，通过多模态大模型快速生成文案，在公域或私域传播，比如广告语、微博文章、微信公众号文章和抖音视频等，同时与多模态图片或视频 AI 工具相结合，自动生成宣传海报、宣传视频等视觉内容，提升营销素材的生成效率。通过自然语言交互或私域数据运营，为客户提供个性化的产品推荐和购买建议。根据用户特征数据分析客户的需求、偏好、风险承受能力等信息，快速准确地推荐适合客户的产品，提高保险销售效率和客户满意度。

智能运营：在企业和商户私域运营中，通过多模态数字化应用方案能够解决全链路高效运营。在商户入驻时，通过多模态场景和内容识别能力，完成摊位门头照自动化审核，同时识别商户和销售商品及价格；

在商户运营中，通过多模态识别和生成能力，进行菜单初始化和商品效果图生成，降低门槛和成本；在日常运营中，通过多模态营销文案、图片和视频的生成能力，根据时节定制化营销文案和营销海报，以及宣传视频等，增加商户的收益和订单成交量。

多模态数字化应用基于企业外呼、客服、推荐、运营等多模态业务场景，与多模态技术的丰富和灵活的 AI 服务进行结合，快速实现业务效果。

通常调用这类多模型 API 可以分为三步骤：

准备和优化输入提示（Prompt）、使用 API 进行模型调用、处理和展示结果。

Prompt 优化：明确通过多模态大模型实现什么样的任务，基于任务需求构建有效的提示信息。对于文本任务，这可能意味着撰写清晰、具体的指令或问题；对于图像相关任务，则可能包括选择适当的图像作为输入。通过实验和反复测试，找到最能引导模型输出期望结果的Prompt 表达方式。调整文本提示的措辞或添加关键信息，改变图像输入的尺寸和质量。

Assistant-API 调用：

选择 API：确定适合你任务的 API 服务。不同的多模态大模型可能通过不同的 API 提供服务，选择合适的 API 是关键。

准备请求：遵循所选 API 的文档准备请求。这通常涉及设置合适的 HTTP 请求头、选择正确的 API 端点、准备必要的认证信息以及构建请求体。

发送请求：将准备好的请求发送给 API 服务。这可以通过编程方式使用 HTTP 客户端库或使用命令行工具完成。

处理响应：对 API 返回的结果进行处理。这可能包括解析 JSON 格式的响应内容、错误处理以及转换模型输出以便进一步使用。

结果召回展示：分析模型返回的数据，对结果进行质量评估。根据需要，可能还要进行后处理，比如图像的裁剪或调整大小，文本的清理等。将处理过的结果以用户友好的方式展示出来。根据应用场景，这可能包括在网页上显示生成的文本或图像、在应用程序内部展示音频播放控件等。

2、AI 原生应用实施路径

大模型技术仍在飞速发展，国内外大模型厂商的产品快速推陈出新，在商业化大模型和开源大模型社区，每个月、每周、甚至每天都有新的模型和框架出现。同时，算力资源短期内将持续紧张，大规模应用的铺开，直接导致对模型推理资源的需求持续上涨，而金融机构不仅要解决资源的供给问题，还需要持续提升算力的使用效率，支撑企业大模型场景的全面落地。

金融机构一直是 IT 技术的先行者，在数字化转型和技术创新方面不断寻求突破。如何能跟上大模型技术的快速发展，不掉队，客观理解新技术，快速识别合适场景，验证大模型的技术与业务价值，成为了企业面临的首要问题。“百舸争流，奋楫者先”，我们提出一条可行的路径，在解决算力资源短缺的同时，又能保障金融机构用上最新的大模型技术，为业务与客户带去价值。

“云上试航”：快速完成大模型可行性与价值验证

大语言模型横空出世，带来的不仅仅是单点技术的创新，更是全套技术栈的革新。GPU服务器、大模型全周期管理平台、推理加速框架、RAG 知识增强、Multi-Agent 智能体，这些新的事物在不停地刷新技术从业者的认知。以上种种技术，要在客户 IDC 完整搭建一套，难度极高成本极大，尤其是在大模型的价值尚未被完全验证与挖掘的前提下。

这个阶段，金融云成为了企业的最佳选择。

算力层面，云厂商资源储备充足，为客户提供了多样化的算力选择，且弹性按需付费；模型层面，主流云厂商不仅提供商业化大模型，还提供业界优秀的开源大模型服务，客户可按需自由选择，以 MaaS API 的方式调用；

平台工具层面，更是为客户提供了极大的选择空间，从大模型全周期管理平台到智能体应用，从检索引擎到向量数据库，以上这些，企业都可以灵活组合使用，快速验证新技术的价值，避免前期无谓的投入和时间浪费。

“小步快跑”：大模型应用试点的选择与落地

过去一年，大模型在金融机构的应用，也经历了快速的发展。最初期的尝鲜者们，都从RAG 知识问答场景开始，通过构建企业级知识库，引入大模型技术，充分感受其在语言理解与生成上的能力。

随着大模型自身变得更加成熟，以及从业者对大模型的技术掌控力增强，大模型的应用已经从最初的“问答机器人”，开始渗透到金融行业的核心业务流程当中，并开始扮演 Copilot（辅助驾驶）的角色，提升员工工作效率，提升客户服务效果。

在银行行业智能客服领域，大模型被用于识别客户意图和情绪，为客服人员提供话术辅助与推荐；

在证券行业投研投顾领域，大模型被用于读取海量的研报、资讯，以自然语言的方式提供观点问答和内容摘要等服务；

在保险行业核保领域，大模型被用于理解复杂的核保政策，针对客户提交的材料做合规性审核与保险计划生成。这些被验证过的场景，都适合处于大模型建设初期的金融机构作参考，选择 2-3 个相对有容错性、投入产出比高的作为试点。

在这个阶段，可暂不考虑太多平台化的事情，宜采用“以用带建”的思路，选定场景后，引入一个经过验证的商业化大模型，提供持续稳定的服务和安全合规方面的保障。工程上可以在大模型应用层面，选择轻量化的 RAG、Agent 产品，配合商业化大模型，对外提供 MaaSAPI 的调用以及 Workflow 编排能力，快速支撑业务场景的落地。

“平台筑基”：建设 LLMOps 技术栈，实现中台化管理

走过试点阶段后，企业内大模型应用将会全面铺开，这时就不再适合从某几个应用出发单独建设了，技术团队需要在平台层面做整体规划，基于业界领先的 LLMOps 理念，围绕大模型的构建与应用流程，构建大模型全周期管理平台，实现基础能力的中台化管理与服务，支撑大模型在多业务场景的快速落地。

具体来讲，大模型全周期管理平台主要包含两个部分。

模型中心，主要承载模型层面相关工作，语料管理、模型微调、推理加速、模型评测等；应用中心，在模型之上，提供 RAG 知识库、Multi-Agent 框架、Prompt 工程、Workflow 编排等能力，支撑业务快速基于大模型的能力，构建起应用链路。

企业在小步快跑阶段会使用一些主流开源框架做快速落地，例如：LlamaIndex、OpenAI的 Assistants API。到了平台化阶段，不仅要考虑低代码大模型开发范式的支持，同时要考虑全代码开发范式，面向技术人员提供高效的开发与集成框架，并兼容主流开源框架，实现原有应用的平滑迁移到平台上。

“云端融合”：大模型混合云架构，充分利用云上资源

随着大模型应用全面铺开，场景从服务内部为主，转向直面外部 C 端客户，对大模型推理资源的需求会呈指数级增加。从当前大模型技术发展趋势和落地案例来看，未来推理服务会成为大模型资源需求的绝对主力。

正如前文例子，部署一个 72B 大模型推理实例，需要 3 张 A100（80G）的资源。当业务上需要 50 并发时，需要的 GPU 卡的数量在 200 张左右 A100（80G）。无论从供给资源还是采购成本来讲，这都是一笔不小的成本。

在这个阶段，算力资源会再度成为制约企业全面拥抱 AI 大模型的瓶颈。通过构建混合云架构，在安全合规的前提下，把本地算力作为固定资源池，同时把云上充足的弹性资源使用起来，成为金融机构在大模型时代的最佳选择。

结语

OpenAI 在春季新品发布会上搬出了新一代旗舰生成模型 GPT-4o，一系列新的能力让我们无比坚信，AI 大模型技术势必会颠覆和重塑未来产品的形态。而当大模型在金融行业落地，重塑金融企业应用时，我们必须考虑金融行业独特性的要求。

在与众多金融客户进行大模型应用联合共创之后，我们对金融客户面临的主要挑战进行了剖析，定义了金融级 AI 原生的蓝图和六大要素，并挑选了知识密集型、全链路数字化、多模态数字化等三类具备较大业务价值的场景，阐述其技术架构的选择和落地路径，旨为金融企业的数智化创新提速。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业