推荐语
大模型智能分析Agent,开启经营分析新篇章。探索结构化与非结构化数据融合,实现企业数字化转型的关键一步。核心内容:1. 大模型时代背景下智能数据分析的机遇与挑战2. 结构化与非结构化数据融合的痛点与解决策略3. 大模型智能分析Agent的成功案例与未来展望
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

导读 大模型时代为智能数据分析带来了机遇与挑战。结合 LLM 和语义层可有效解决当前数据分析的痛点,推动其普及和民主化。未来技术将进一步强化大模型 Agent 在数据分析中的作用,成为企业决策和业务流程的重要组成部分。高效融合结构化与非结构化数据,通过大模型智能分析 Agent 实现创新突破,已成为企业数字化转型的关键。借助该技术,企业能充分挖掘数据价值,提升决策科学性和精准度,从而在竞争中占据优势。
本次分享题目为“高效融合结构化与非结构化数据——大模型智能分析 Agent 推动经营分析与洞察的创新突破”,主要涵盖以下四个方面:1. 大模型时代的智能数据分析背景
2. 痛点与解决思路
3. 成功案例
4. 未来展望
分享嘉宾|岑润哲 数势科技 数据智能产品总经理
出品社区|DataFun
01
大模型时代的智能数据分析背景:LLM 如何推动数据分析的普及
在大模型时代,尤其是大型语言模型(LLM)的推动下,数据分析的普及和自动化显著加速。LLM 通过自然语言处理能力,使非技术用户能够用自然语言与数据互动,从而降低分析门槛。数势科技提出的智能分析 Agent 架构结合指标语义层,为数据民主化提供了有效技术解决方案,提升了数据的可访问性和理解性,使数据分析师和其他角色更高效地工作,推动数据驱动的决策文化。
上图展示了现代化企业中,业务团队和管理团队的数据消费 pipeline。尽管企业已建设现代化的 BI 工具和数据中台,业务团队仍面临诸多挑战,如 BI 工具灵活但学习成本高,管理者难以有效利用分析视图。因此,需要将数据语义层作为桥梁,使大模型更好理解用户需求,智能提供数据和报告。数据民主化:即推广数据的平等访问和使用,使各角色员工能直接参与数据分析和决策。强调数据的易获取性、易理解性和易用性。
- 管理者/业务人员通过 LLM+Agent 架构直接使用数据,降低门槛。
- 语义层提供标准化数据表示,帮助非技术用户理解和利用数据。
- LLM+Agent 架构理解自然语言查询,自动执行分析任务。
- 数据语义层定义数据的业务含义,使其更易理解和操作。

目前,企业中能有效解读数据的人员不足 5%。提升非技术人员的数据分析能力至关重要。通过将数据仓库底表转化为数据语义层,非技术人员也能获得良好服务,支持数据驱动决策。最终目标是将能消费数据的群体比例从 10%-15% 提升至 95% 以上。数势科技的“民主式数据分析”理念,通过降低数据使用门槛,使每个人都能获取洞察并做出决策。实施需构建用户体验层、数据语义层和数据平台底座的多层架构,促进数据透明度和可访问性,推动数据驱动文化,实现数据民主化。
02
痛点与解决思路:如何结合 LLM 与 Semantic Layer 助力数据获取、数据分析与数据洞察
企业在数据分析中面临的痛点影响了效率和从数据中获取价值的能力。为解决这些问题,企业需简化数据提取流程、降低 BI 工具的使用门槛,并优化数据洞察和总结工作流程。通过这些改进,企业可提高数据分析效率,快速获得洞察,更有效地支持业务决策。1. 常见痛点

在数据分析场景中,许多企业面临数据提取、BI 工具学习和结论缺失等痛点。数据提取的痛点:SQL 学习难度高。SQL 是从数据库提取数据的主要工具,但其复杂性对非技术员工构成显著障碍,导致学习曲线陡峭、效率低下和对技术团队的依赖。数据分析的痛点:BI 报表配置难度高。BI 工具需专业配置,增加技术依赖和复杂性,影响用户上手和数据分析效率,并增加维护成本。数据洞察与总结的痛点:大量时间花费在导出数据到 Excel。分析团队需花费时间在数据导入和整理上,降低工作效率,限制快速反馈能力,且用户技能限制了分析深度。2. 针对数据提取的解决方案

虽然自然语言处理和 NL2SQL 可以部分解决数据提取问题,但在企业级分析中,由于数据量大、复杂性高和安全性要求,这些方法常难以提供准确结果。此外,即使 SQL 查询语句正确,面对百亿级数据量时查询也可能无法及时完成。因此,需要探索更先进的解决方案,如结合大模型和数据语义层来优化数据提取过程。上图展示了一种基于大型语言模型(LLM)的自然语言到 SQL(NL2SQL)转换方法,旨在通过对话式查询简化数据提取,降低对专业 SQL 知识的依赖。
标准 NL2SQL 方案:
用户通过对话式界面提出数据查询请求,大语言模型理解查询意图并将其转换为结构化查询任务。数仓语义层将该任务映射到数据库,生成相应的 SQL 语句。通过 SQL 服务执行该语句,查询企业数据中台,并将结果反馈给用户。
NL2SQL 方案技术挑战与痛点:
- 准确率低:企业级应用中的数据查询准确率通常仅为 60-70%,即使先进的 GPT 模型也难以实现可用的准确效果。
- 成本高:大模型需进行预训练以理解企业数据,庞大的数据源会导致高昂的学习成本,包括增量预训练和长窗口处理。
- 性能差:大模型生成的 SQL 可能未优化,导致查询效率低下,尤其在多表关联查询时,可能引发服务异常。
- 数据安全风险:直接使用大模型查询数据可能缺乏必要的权限管控,增加隐私泄露和安全风险。
- 能力单一:大模型在处理高级分析问题时受限,往往依赖底层数据库引擎的特定能力,而非 SQL 语句本身。

在数势科技的实践中,我们倾向于结合语义层(Semantic Layer)与大模型进行数据分析,因为企业内部的指标体系蕴含复杂的业务逻辑,构建稳固的语义层至关重要。良好的语义层与底层数据模式(Schema)映射能够更准确地解析用户需求。业务语义层是智能分析产品的基础,能够将复杂数据结构转化为易于理解的业务概念,使非技术用户也能有效进行数据交互和分析。它为大模型提供必要的上下文,帮助更好地理解企业数据。
- 虚拟化:通过低代码构建指标虚拟化,用户可视化定义数据指标。
- 多维计算引擎:支持复杂多维 OLAP 计算,满足不同业务场景需求。
- 数据安全与权限管控:实施数据安全策略和权限管理,保护数据隐私。
- 消费集成:提供 API 或数据推送能力,便于与不同应用和服务集成。
业务语义层的构建是智能分析 Agent 成功的关键,通过这七个核心要素,企业能创建灵活强大的数据层,支持复杂分析需求,并提供易于理解的业务视图,提升数据分析效率,使更多非技术用户能够从数据中获得洞察。
数势科技通过构建企业级统一语义层(Semantics Layer),显著提升了数据查询的准确率和性能,补充了大模型的能力,具体优势包括:
- 预设数据指标的定义与管理,确保一致性和准确性,避免业务理解偏差。
- 采用思维链分析和歧义反问技术,提升查询泛化性,减少从文本到 SQL 的误差。
- 自研数据查询加速引擎,智能优化查询语句,实现 Top95 查询的秒级响应。
- 提供一站式定义、自动开发和管理指标语义的解决方案,降低用户学习成本。
- 全流程白盒设计,允许企业客户用业务语言描述查询,便于快速理解和排查。
- 利用指标权限管理,精细化控制数据与指标的权限,确保查询安全性和可控性。
- 处理高级数据分析问题,通过精准指标关联与展示,实现单项查询、报表展示和总结报告生成。
- 大模型能力:意图理解和任务规划,将需求转化为数据查询任务。
- Agent规划层:将用户需求转化为具体的数据查询操作。
- 指标语义层:定义和管理数据指标,提供查询的语义基础。

与市面上常见的 NL2SQL 技术相比,我们提出的 NL2Semantics 结合了 Agent 技术,更适合处理复杂任务。在企业应用中,用户常需进行跨表查询和撰写报告等高阶任务,这些任务涉及数据提取及结果解释。通过 Agent 机制,复杂任务可以拆解为多个子任务依次执行,并最终以报告形式呈现,准确满足用户的高级需求。尽管 NL2Semantics 和 NL2SQL 都是将自然语言查询转为数据库查询的技术,但两者在实现和效果上有差异。NL2Semantics 通过构建语义层提高查询准确性,而 NL2SQL 则直接转为 SQL 查询。NL2Semantics 在复杂数据分析场景中展现出更高的准确性和实现度,能够更好地处理自然语言中的模糊语义,提供精确的数据分析结果。示例:关于“华东区XX商品的下单金额周环比下降”的问题:
- 难点:枚举值转换、同环比计算、多维归因、报告解读。
- NL to SQL:难以实现,需要复杂 SQL 处理。
- NL to Semantics:可实现且易理解,语义层提供清晰的归因分析和报告解读。
针对数据分析的解决方案:不同层次的数据分析对业务的价值不同,低层次的数据检索和可视化价值较低,而高层次分析如指标变化原因和业务复盘则更具价值,常需依赖非结构化信息的输入(如外部行情、天气、政策等)。因此,我们需在数据提取基础上融合这些知识,以输出更有价值的信息和智慧。
如图所示,数据分析领域的四层金字塔结构根据请求数量和分析深度分为四个层次:
- 示例:查询特定时间的数据,如“今年 10 月不同网点的有效户数”。
- 示例:分析“今年 10 月不同网点的有效户数及月环比”。
- 示例:分析“今年 9 月到 10 月的有效户数变化”。
通过这一结构,企业可以更好地理解数据分析的需求和价值,逐步构建数据分析能力,从基础查询发展到高级分析与决策支持。
为实现复杂任务的拆解和执行,我们采用了 Agent 架构。以金融客户为例,当客户提出“近7天哪个基金的申购人数最多,哪个渠道跌幅最大,并撰写总结报告”的需求时,我们通过专家雇佣机制将任务拆解为数据提取、归因分析和报告生成等子任务,每个子任务由相应的 API 或算法执行,最终整合为完整的分析报告。这种方法提高了分析准确性和用户体验。Agent 架构模拟人类专家的协作,提供灵活强大的解决方案,其关键组成部分包括:
- 专家雇佣(Expert
Recruitment):根据目标雇佣不同领域的专家,确保分析全面。
- 协同决策(Collaborative
Decision-Making):专家协作解决复杂问题。
- 动作执行(Action
Execution):执行具体分析动作。
- 结果评估(Evaluation):评估分析结果,确保符合用户需求和业务逻辑。
- 正负反馈(Reward
Feedback):提供反馈以优化分析过程。
- 结果(Outcome):输出最终分析报告,包括数据、逻辑和业务洞察。
通过动态雇佣和协调专家,Agent 架构提供灵活可扩展的解决方案,提高分析准确性和效率,使结果更符合业务需求和用户期望。正负反馈循环有助于持续优化数据分析的质量与价值。
数势科技的大模型 Agent 架构结合数据语义层,提供全面高效的数据分析解决方案,具备任务规划、数据理解和高效计算三大核心能力,自动化处理复杂数据分析任务,提升分析效率和深度。
以零售行业为例,面对模糊复杂的“经营复盘”需求,传统查询工具难以满足,而 Agent 架构通过 Feelshot 管理机制,结合历史分析和当前需求,自动生成决策流和执行计划,并以报告形式呈现,帮助业务方理解和决策。3. 针对数据洞察的解决方案

在数据分析中,归因分析至关重要,支持因子、维度和相关性等多种归因方式,同时结合企业内部的非结构化知识,提高分析准确性和可读性。高级用户关注概览和建议,因此报告需将非结构化知识与结构化数据结合,简明呈现结果。
高质量数据报告依赖五个核心要素,强调“大模型擅语文,小模型精数学”,充分利用大模型的归纳总结能力和小模型的统计能力。
结构化信息:包括指标、时间、维度等,这些是数据分析的基础。
半结构化信息:涉及指标血缘和指标树结构,这些信息有助于理解数据的来源和关系。
非结构化信息:涵盖报告结构、策略文档、SOP 手册、操作手册、行业话术和系统链接等,这些信息为数据提供了业务背景和上下文。
丰富的算子库:包括描述性统计、占比分析、趋势分析、相关性分析、异常分析、排名分析以及最优可视化选择路径等,这些算子用于对数据进行各种分析和处理。
行业化的 Prompt 设计:涉及角色设计、技能设计和 Few
Shot 学习,这些设计有助于定制化地解决特定行业的问题。

大模型与小模型在数据分析中各有优势:大模型擅长归纳总结,小模型精于统计计算。结合两者能提高分析效率。例如,在客户订单量分析中,传统方法需 4 小时手动提取数据和编写报告,而新方法利用大模型调度小模型进行数据处理,提升了效率并确保报告的准确性和深度。输出的可视化图表和详细分析由两者共同完成,结合企业知识库和 SOP,生成更具业务洞察力的报告。通过协同工作,小模型确保统计准确性,大模型提供深入洞察,使数据分析报告更全面、实用,助力企业决策。
03
成功案例:某头部金融机构智能分析助手落地案例

上述图片是我们服务的一家头部金融机构,应用数势科技 SwiftAgent 产品的实践成果。该项目主要服务于总行和分支行领导,关注银行的关键数据指标,如净收入和存贷款情况。该金融机构选择我们的技术,主要是由于两个痛点:一是缺乏人力和预算来支持大量分析师服务;二是指标不一致导致分析结果难以统一。为解决这些问题,我们实施了两个架构方案:一是构建语义层(Semantic Layer),确保指标定义和血缘关系清晰;二是提供智能分析产品(SwiftAgent),支持自然语言交互、报告生成和自动化归因分析。该解决方案旨在通过智能化工具提升银行在企业经营分析、营销复盘和日常数据使用等方面的能力。-
业务团队日常用数:支持业务团队在日常工作中使用数据进行决策。

在一期项目中,我们优先落地了分支行领导的业绩对比场景。目前,我们正在推荐二期项目,计划针对财富管理代销、信用卡业务和对公风险评估等场景进行落地。
-
理财经理通过自然语言查询,了解上个月销售额最高的理财产品,以便优化产品推荐策略。
-
系统通过自然语言交互,分析信用卡逾期率最高的客户群体特征,帮助银行采取针对性措施降低风险。
-
运营团队通过自然语言查询,分析客户流失率与服务质量、产品竞争力等因素的关系,为银行改进服务提供依据。
-
领导通过自然语言取数与报告生成,比较各分行的贷款业务总量,为业务指导提供参考。
-
在评估贷款风险时,系统通过智能归因分析,找出贷款违约集中的行业领域,为信贷政策调整和风险管理提供依据。
-
财务部门通过智能归因和自动报告生成,计算各项业务对利润的贡献比例,帮助进行成本控制和利润优化。
- 自然语言处理:通过自然语言指标取数,快速准确地获取相关数据。
- 智能归因分析:帮助找出业务发展中的关键因素和问题所在。
- 自动报告生成:以直观的方式呈现分析结果,支持决策制定、风险管理和业务优化。
- 提高运营效率:通过自动化和智能化工具,减少人工分析的时间和精力。
- 增强决策支持:提供更准确、及时的数据洞察,辅助决策。
- 统一管理:通过统一的指标管理和语义构建,提高数据的一致性和可复用性。

为提升系统性能和用户体验,我们在后端设置了专门的 bad case 优化与收集模块。当用户提出问题并得到不满意的答案时,我们记录反馈并将其作为新需求进行优化。这一用户反馈循环机制使系统不断改进,实现数据飞轮效应:用户使用越多,系统越能理解并满足其需求。
数势科技 SwiftAgent 在智能分析领域有四大核心优势:
准确:通过 NL2Semantics 技术,SwiftAgent 将自然语言与业务术语和数据模型语义连接,建立标准化指标语义层,实现精准的数据提取。
友好:提供用户友好的交互体验,通过反问和引导帮助用户明确查询意图,使非专业人员也能逐步构建专业的数据分析查询。
敏捷:基于 Agent 架构,结合大模型的思维链和 ReAct 架构,SwiftAgent 能有效拆解复杂问题,快速响应并提供精确分析结果。
安全:重视数据安全,实施严格的安全保障措施,通过精细的权限管控,确保数据访问和操作的安全性,满足金融机构的合规要求。
综合这些优势,SwiftAgent 为金融等行业提供高效、易用且安全的智能分析解决方案,支持复杂的数据分析需求,帮助用户提取有价值的洞察,同时确保数据的安全和合规性,降低分析门槛,让更多非技术背景的用户参与数据分析。
04
技术总结与未来展望
1. 技术总结
我们通过 autosymatics 技术连接了数据语言与业务语言,确保用户能够准确理解数据。利用大模型的反问与追问功能,引导用户逐步成为专业分析师。通过我们的架构,用户可以用简单的语言提出需求,而系统则将其拆解为复杂的思维链,逐步完成复杂问题的回答。我们已经在金融机构成功落地了私有化部署,并满足了金融级的安全和合规性要求。
2. 未来展望
未来,将增强系统的主动思考能力,使其自动推送预警和问题,降低用户思考成本,并加强归因分析,整合非结构化数据报告,以提升产品活跃度和用户体验。
目前许多工具仍按需提供报告,而 Data Agent 应具备更强的主动性,尤其针对领导层用户。未来的 Data Agent 将能自动分析指标,并在发现问题时主动推送信息,使用户在提出问题前已有明确的询问动机,从而更高效利用数据资源。数势科技的智能分析系统将主动帮助银行领导识别和分析潜在数据问题,而非被动等待提问。
- 指标异动推送:监测关键指标,如“对公贷款余额”,异常波动时立即通知领导,促使关注问题。
- 多维度分析:从多角度分析数据,揭示贷款余额变化趋势。
- 归因分析:分析异常趋势,识别贷款余额下降最多的分行和客户类型,帮助理解驱动因素。
- 结论输出:自动生成总结报告,将复杂数据转化为易懂信息,支持决策。
- 多维分析:利用数据仓库和 OLAP 技术进行切片分析。
- 数据解读与报告:结合自然语言处理和生成技术,将分析结果转换为业务语言的报告。

岑润哲,现任数势科技数据智能产品总经理,前头部互联网公司资深量化运营负责人,多年零售与金融行业数据挖掘与用户运营策略设计经验,曾为多家大型企业搭建从目标设定、数据诊断、策略设计到优化复盘的全链路数字化运营平台。

