AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


阿里巴巴数据消费场景AI Agent实践
发布日期:2024-12-04 17:53:35 浏览次数: 1549 来源:瓴羊QuickBI


导读:随着AI技术的持续发展,如何将其应用于数据消费场景中是备受关注的一个问题。本文将介绍阿里云智能集团瓴羊智能科技 AI Agent 资深产品专家叶笔长在DA数智大会上的分享——对AI驱动下的数据消费的认知,以及在该方向上的探索与实践。

文根据 DA 数智大会(Data+AI Conference)2024演讲实录整理而成。

01

瓴羊公司介绍

1. 瓴羊介绍
瓴羊是阿里巴巴全资子公司,主营数据要素服务。瓴羊提供一整套数字化产品和服务,涵盖数据加工、数据消费以及数据流通等三大环节。帮助企业有效利用数据资源,促进数据与企业实际经营的深度融合,赋能企业增长和数字化转型。


瓴羊已服务了上百家知名企业和众多中小企业的数字化建设,如一汽红旗、星巴克、自然堂、极氪、乔丹、中国移动和中海油等,覆盖零售、汽车与制造、互联网、金融等多个行业。
瓴羊的前身是阿里巴巴内部最懂数据的团队——数据中台,也曾经被叫做 DT 团队(Data Technology)。基于「One Data」方法论,不断演进出 One Product、One Platform,直至 2021 年成立瓴羊公司。从服务于集团内部,发展到服务于成百上千的外部客户,帮助各行业企业解决数据相关问题。


2. 瓴羊在数据领域构建的产品



瓴羊在数据领域打造了两大产品:


第一个是 Dataphin 智能数据建设与治理,旨在解决企业数据建设、数据采集、数据资产管理等一系列数据治理问题。针对各行业大数据建设、治理及应用诉求,结合数据中台方法论,一站式提供全域数据集成、可视建模及规范定义、数据资产治理等能力,助力企业打造标准统一、准确可信、便捷可消费的数据体系。


第二个是 Quick BI 智能商业分析,主要解决数据生产出来后如何服务于企业决策场景和各种分析应用场景。Quick BI 是首个且唯一入选 Gartner 商业智能和分析平台魔力象限报告(《Magic Quadrant for Analytics and Business Intelligence Platforms》)的中国企业产品,截至今年已经连续 5 年进入 Gartner 魔力象限,特别是最近两年都进入了挑战者象限。


这两大产品是瓴羊服务于客户的核心载体。接下来将围绕这两个产品在 AI 方向上的实践展开介绍。


02


AI 驱动下的数据消费


1. 数据消费的三个主要方面
瓴羊服务的客户非常多,有制造业、零售业等各种各样的客户,这些客户的内部流程和业务场景千差万别。在 DA 数智大会现场,叶笔长举了一个具象化的例子:如果企业是一个人,那么算法、算力、数据就对应智力、体力和血液,数据会流经企业中的各个环节,因此其发挥作用的场景非常多。
叶笔长指出,在面对复杂多变的业务场景时,数据消费的核心问题主要集中在以下三个方面:
  • 问数:企业在决策分析的时候,能不能问到数据?
  • 找数:业务分析师和产品工程师能不能在海量的数据资产中快速找到真正想要的数据表?
  • 看数:数据的可视化是企业中最基础的需求,也是传统 BI 一直在解决的问题。
叶笔长认为,随着 AI 技术的不断进步和业务场景的持续演变,要充分发挥 AI 的独特价值,关键在于以下两点:


(1)数据资产建设:企业内的数据相关部门或团队需要构建清晰且易于使用的数据资产。在上一轮的数据革命中,阿里巴巴主要解决的就是通过打造数据中台统一数据,并保证数据高质量的问题。


(2)角色赋能与数据利用:一旦数据资产建立起来,接下来的重点是如何让企业中的各个角色,尤其是那些与数据紧密相关的角色,发挥出其最大的价值。每个角色在服务用户时所需的数据及其使用方式各不相同。瓴羊的策略是为这些角色提供一个名为 Data Agent 的数据平台,在这个平台上,他们可以根据自身的需求和场景快速创建定制化的数据代理(Agent)。这不仅有助于将特定角色的知识和经验沉淀下来,还为未来构建大规模的企业内部AI代理市场奠定了基础。


简而言之一句话:资产建设要做好,数字分身共打造


2. 企业内数据分析的典型框架
现场,叶笔长展示了一个企业内数据分析服务的典型框架:在目标方向清晰的情况下,经过自上而下的拆解,能够拆解出一套企业内的分析体系、报表体系。这个体系能够让企业内各个角色联动起来,形成一个目标统一的体系。


3.数据分析的典型问题与挑战


然而,上述解决方案还存在一个重大的问题。在这套确定性的看数和问数模式下,缺失了很多灵活性,比如临时性、探查性和分析性的问题。AI 的出现给了一种新的契机去解决这类问题。



在原来的确定性体系下,业务人员或数据分析人员今天要临时取这个数据,明天要分析那个数据,时间都花费在取数上。如果提交给业务产品开发,就需要排版本,需求可能一直排在后面,要不断地等待。


传统 BI 解决这个问题的方式是构建一些自定义的卡片,来支持灵活报表和灵活分析。但是在新的 AI 技术条件下,有一种新的解决方案,就是用自然语言去表达业务诉求,解放企业的数据人员,从而发挥数据人员向上的逻辑和业务人员向下的逻辑,让双方需求更好地 mapping 起来。


03


智能分析


1. 瓴羊智能商业分析产品 Quick BI


瓴羊智能商业分析产品 Quick BI 正是为了解决企业中看数的问题,特别是针对确定性问题之外的那些灵活看数需求。



叶笔长在现场演示了一段真实场景操作视频,在 Quick BI 的基础功能之上,融合了先进的大模型技术,对 AI 助手智能小 Q 进行了升级,旨在有效解决企业在日常数据查看与查询中遇到的难题。


智能小 Q 可以帮助用户通过智能搭建快速生成整张报表,或者指定报表快速呈现数据结果。在搭建过程中,无需寻找隐藏在页面深处的功能点和配置项,只需简单输入即可完成复杂配置。无需设计师帮助,也能打造专业美观的视觉效果。


通过智能小 Q,用户可以随时随地以对话方式问数。只需要上传企业知识,智能小 Q 就能学习到业务逻辑。通过对话输入,数据即可一览无余。如果对数据准确性有顾虑,还可以查看 AI 取数过程。支持多轮对话、追问下钻即可获取详细指标,拆解波动原因,归纳关键贡献因素。分析数据规律,预测未来走势等等。


随着大模型的引入,Quick BI 更加智能,业务人员可以更简便地查询分析数据,降低了操作门槛,也减少了分析师简单重复的劳动,使其可以专注于更有价值的工作。企业可以借助越来越智能化的 Quick BI 去应对不断膨胀的业务数据和复杂分析。目前 Quick BI 已经服务于各类行业,助力销售、金融、制造等行业客户实现数据智能分析,不断提升企业数字化水平,推动了数据消费新范式。


*关注下方账号,回复「DA」免费下载叶笔长老师演讲资料


2. 大模型的两个重要认知


在 BI 应用这个方向上,应该如何选择模型?立足 Quick BI 智能小 Q 的研发历程,总结出以下两点重要认知:


首先,模型越大、参数越多,则效果越好。但是这同时意味着对资源的要求越高,即对算力卡、内存,以至于整个机器的成本更高。叶笔长建议需要在这两者之间找到一个平衡点。


另外,数据是解锁智能的关键钥匙,数据质量决定了模型的效果。更多的预训练数据和更高质量的标注数据可以显著降低模型大小,提升模型性能。



叶笔长介绍到,由于瓴羊的客户覆盖了广泛的行业领域,因此在模型部署上采取了两种方式:


一种是公有云模式,用户只需订阅服务即可使用;另一种则是针对那些出于数据安全考虑而偏好私有化部署的客户。为了同时满足这两类客户的需求,不仅要在客户的软件、硬件设施以及网络环境等多方面作出适应性调整,还要确保模型能够达到基本的性能标准。为此,团队对从 7B 到 72B 不同规模的模型进行了全面测试。


此外,为了避免数据分析过程中可能出现的信息误导(所谓“幻觉”),持续地对模型进行微调变得尤为重要。特别是在数据分析的应用场景下,准确地识别排名、趋势及分布等关键指标,对于提供可靠的数据洞察来说至关重要。


3. 产品的技术架构


下面分享模型选择后如何构建产品技术架构。



在智能问数场景,如果用户输入的是自然语言,那么从自然语言到具体的指令需要做一些中间转换。不同的厂商对此有不同的处理方式,而 Quick BI 智能小 Q 则支持多种转换路径,包括 NL2API、NL2DSL 以及 NL2SQL。


由于瓴羊产品内置的 AI Agent 允许用户自定义并快速编排功能,使得其应用场景非常广泛且复杂。在具体应用中:


(1)对于那些明确且固定的场景,采用 NL2API 的方式最为高效和准确,因为它能直接从用户的自然语言映射到最终的操作指令。


(2)瓴羊产品的发展历程并非从零开始,它需要兼容内部已有的多种历史产品和技术体系,同时也要适应外部客户多样性的需求,因此开发了 NL2DSL 技术。通过创建一套独特的 DSL(领域特定语言),实现了更灵活高效的转换机制。


(3)鉴于每种数据库都有其独特的 SQL 语法方言,单独适配每一种数据库的成本极高。为此,Quick BI 团队特别训练了一个大型模型解决 DSL2SQL,极大地降低了适配成本。


此外,Quick BI 还对可视化展示与复杂计算能力进行了大量针对性优化,构建了一套强大的 BI 基础引擎。这套系统不仅能够很好地处理复杂的 SQL 查询,还能通过高级的应用渲染组件显著增强数据可视化效果。



基于通义千问这一强大的基础模型,Quick BI 成功构建了专为数据分析领域优化的大规模模型。在此过程中,特别关注了数据质量多任务协同以及模型泛化这三个关键要素。


(1)高质量的数据:首先,高质量的数据意味着多样性。如果仅使用单一类型的数据进行训练,那么模型的学习能力将受到限制,只能针对某一类问题提供解决方案。为此,Quick BI 团队向大模型提供了丰富多样化的样本以支持微调与预训练过程,确保其能够处理更广泛的应用场景。此外,保持数据的一致性同样重要,这有助于避免因输入信息不一致而导致的预测结果不稳定。


(2)多任务间的协调:在模型训练阶段,合理配置不同类型的任务比例对于提升最终模型性能至关重要。通过精心设计不同任务之间的相互作用关系,可以使模型在面对实际问题时更加灵活地选择合适的解决策略。


(3)逐步提高难度:为了增强模型的泛化能力,在训练过程中采取循序渐进的方式增加挑战性是非常有效的做法。这种方法可以帮助模型更好地适应未曾见过的新情况,从而提高其整体表现力和应用范围。


通过上述措施,Quick BI 不仅提高了自身产品的技术水平,也为用户带来了更加高效准确的数据分析体验。



瓴羊对各种复杂 SQL 进行了抽象。比如时间算子,做了单独的训练和加强,能够准确理解用户指令,将各类关于时间的表达精准映射到具体的数据库 SQL 指令。


4. 案例分享


分享过程中,叶笔长现场还展示了一个企业使用实例。


Step1:需求背景


某企业在制定销售激励活动时,需要对其销售明细数据进行深入的探查与分析,以确定具体的激励政策方案。这包括对销售金额的拆分、排名等一系列复杂的操作,旨在通过精细化的数据分析来优化激励机制,提高销售团队的积极性和效率。


Step2:分析挑战


在这一过程中,由于涉及到大量的数据分析工作,如根据销售金额进行拆分,并基于这些细分后的数据进一步做排名等,采用传统方法往往意味着企业必须向 IT 部门提出具体的需求,由专业工程师开发相应的解决方案。这种方式不仅耗时较长,而且灵活性较差,难以迅速响应市场变化或内部策略调整的需求。


Step3:解决方案


(1)快速搭建能力:提供一个能够快速构建分析模型的平台,使非技术人员也能轻松地获取所需的信息,例如各区域内的销售业绩前三名;


(2)智能呈现方式:系统能够自动识别数据特征并选择最合适的展示形式。对于包含地理位置信息的数据集,平台会自动生成地图视图,直观展现不同地区的销售情况;


(3)灵活钻取与自定义分析:除了直接回答用户提出的特定问题(如浙江省的销售表现),该解决方案还能自动扩展分析范围至全国各省,并允许用户自由选取感兴趣的维度深入探索。此外,整个分析过程透明化,用户可以查看从原始数据到最终结论之间的每一步骤,增强了结果的可信度与可解释性。



04


智能找数


除了智能分析方向的产品,叶笔长还分享了 AI 在大数据领域另一应用方向——智能找数。


1. Dataphin 产品实践介绍



企业中的数据量一般会有万级甚至十万、百万级,这些大规模的数据每天都在不断地迭代更新,要从中快速找到真正需要的表就构成了一个巨大的挑战。


瓴羊的 Dataphin·DataAgent 有两个核心能力:「快速找表」和「快速构建私有化DataAgent」能力。


DataAgent 是基于已准备好的数据资产(包括但不限于表格、指标、标签和数据 API 等),通过 Dataphin 快速编排而形成的智能化工具。它支持权限管理,能够针对不同业务部门实施访问控制。借助阿里巴巴成熟的数据资产管理经验,企业可以创建专门的工作空间来构建各部门的知识库,并根据这些知识库实现跨用户群及部门间的权限隔离。与 Quick BI 提供的大模型解决方案不同,Dataphin 允许用户灵活配置多种类型的大规模模型,以满足不同企业和个人用户的特定需求。


对于企业管理者来说,最大化利用企业数据资产的价值至关重要;而对于数据开发者而言,则需要提高处理众多请求时的工作效率;数据分析师面对海量信息时,需寻找更高效的方法来检索相关资料;此外,减少业务人员获取数据过程中的等待时间和沟通成本也是亟待解决的问题。


Dataphin·DataAgent 为每位数据工作者提供了一个专属的数据智能助手。该平台集中管理来自多个源头的数据资源,采用主题式的目录结构进行组织,并赋予每项数据丰富的多维度属性,从而实现了从原始数据到有价值资产的转变。通过构建向量数据库并结合流程设计,用户可以轻松创建个性化的智能助手,开启智能化对话服务。


例如,官方推出的智能助手小 D 可以根据具体的商业目标提出建议,并给出分析框架。此外,它还能深入剖析复杂问题,识别出重要的数据资产元素,帮助用户精准定位所需信息。同时,这款工具还提供了查看数据间的关联性以及生成报告的功能,使得从需求分析到报表制作整个流程变得更加简单快捷。另外,当有特定的数据提取需求时,它也能辅助生成相应的查询代码,展示结果,并支持可视化数据分析,进而高效地完成高质量的数据分析报告,助力企业更好地挖掘其数据资产潜力。


用户还可以自行开发定制化的智能应用,并一键部署上线,以便更加有效地服务于具体业务场景,激发新的增长点。


2. 通过应用 AI 技术,在数据资产发现方面带来的变化



过去,企业数据分析师通常是通过关键词在数据资产中进行搜索。而现在,分析师或运营专员可以完整地表达自己的思路,DataAgent 能够自动解析这一分析框架,识别出其中涉及的数据资产。随后,系统会智能匹配并推荐最适合的分析内容。


05


小结


以上就是对智能分析和智能找数两大产品的介绍。


在真实业务场景中,智能找数和智能问数并非孤立存在的,两者在业务闭环过程中是一个完整体。业务人员分两种,一种是完全不了解数据分析技术,一种是掌握一些数据分析技术。瓴羊数据产品在这两种不同类型的人做数据消费时,都能形成一个闭环。不懂技术的可以去看数据,懂技术的可以去找数据资产,找到数据资产后通过编排快速生成专属 Agent,或者基于问数继续提问来得到答案。两个产品之间可以实现快速的切换和连接。


如何发挥企业中人的力量,让企业中的每个人都可以用智能的方式服务好相应的业务,这正是瓴羊致力于解决的问题。当然,AI 时代还将会有更多数据消费 Agent 实践,期待与大家一起去挖掘更多的业务场景和价值。


*关注下方账号,回复「DA」免费下载叶笔长老师演讲资料

06


问答环节


Q1:我们以前做业务场景归因的时候。需要按照具体的业务场景一个个去归纳,比如库存的归因,失效的归因。不同的业务场景背后的业务逻辑并不相同。Quick BI 如何学习到特定业务领域的归因分析的逻辑?


A1:在数据消费的场景中,首先要找到数、问到数,接下来找到原因。找到原因的拆解逻辑是当一个指标或者指标的目标,或者是一个对比区间产生差异时,对准具体的差异往下拆解,找到根因。拆解一般有三种方式,基于结构拆解、基于链路拆解、基于相关性拆解。


如果企业中的数据链路和体系已经建好。就可以基于企业已有的指标和数据,数据之间的链路和结构关系来进行拆解。


基于相关性会复杂一些,因为 AI 不清楚具体业务场景中哪些数据或者分析是相关的。这时有两种办法,第 1 种是通过指标平台强行关联起,第2种是通过业务分析一些抽象的经验,沉淀到文档中。通过 RAG 的方式检索出来。我们还在继续探索更好的智能化方式。


Q2:我们在做 NL2SQL 的时,面对的数据资产里面有百万级甚至千万级的表。这些表的各个维度的相关描述会有部分不清晰,而且字段也会过期。因此不是每一张表都是可使用的,如何从百万级的表中如何找到真正能使用的表?企业会不断的产生新的应用,这样会带来新的表。对这种情况会有什么方法应对,比如会开发新的取数逻辑,或者是对模型重新训练?


A2:对第一个问题:


1. 企业中一般会有数据资产管理团队,这个团队会规划和管理企业中的数据资产,通过梳理将企业数据资产关系整理出来,这样能够保障我们找数时找到真正正确的表。


2. 如果有资产没有被管理,对这部分可以通过使用的新鲜度,即上下游调用的逻辑来辅助判断这个资产是不是重要的。


3. 一张新表产生后,我们的产品会对新表自动学习,生成表和字段相应的描述,辅助业务高质量的数据描述信息生成。


对第二个问题,前文提到的训练是为了训练大模型的知识推理能力。产生新表的时候只需要将其或者将对此表的描述信息导入知识库,可以秒级将基础信息学习完。


如果大家有更好的方案,也欢迎和我们分享。


Q3:如果要对数据进行进一步更深程度的分析,比如关联性分析应该如何做?


A3:可以将这些原因和指标通过大模型从到企业的知识库中检索做二次召回,召回后进行拆解,然后再整合数据和相关知识。


Q4:有没有制造业相关的例子?比如说工艺的逻辑。


A4:所有的分析回归本质上是相同的。每个制造的环节会有一个链路的逻辑和结构的逻辑。围绕链路和结构,还原业务过程,按照结构拆解信息,得到业务原型。然后基于业务过程和业务原型进行数据分析。千行百业的分析框架,基本上都围绕这个思路。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询