近年来,BI平台逐渐开始与AI融合,更注重以纯业务人员为中心,借助自然语言处理技术,打造搜索驱动的数据分析平台,实现数据消费的零门槛。
本文作者:冰泉
火山引擎DataWind团队
/ BI平台演进历程
BI 概念最早由 Gartner 机构于1996年提出,指的是通过应用基于事实的支持系统,来辅助商业决策的制定。简言之,第一代 BI 主要是以 IT 为中心的预定义报表平台。然而,当时计算机技术、存储技术等都还在发展中,这限制了 BI 技术的发展。经过了20多年的发展,传统BI的功能越来越强大,但这一时期的 BI 产出仍然是相对固定的汇总报表。IT 部门和业务部门之间反复来回的沟通和需求,导致了响应周期漫长、价值难以直观呈现等问题。到了 21 世纪初,以具有一定IT能力的业务人员为中心的自助式数据分析平台开始流行。在此时期,“敏捷BI”开始成为热潮,国内的主要BI厂商也纷纷涌现,竞相开发可自助式分析的 BI 产品。敏捷 BI 在一定程度上解决了部门协同的问题,逐渐融入到业务日常的办公生活中。但它也具有一定局限性,例如,存在长尾数据处理方面的困难,分析经验和知识体系难以沉淀,IT 部门难以为其提供后续技术支持。2010 年后,尤其是近五年来,BI 开始与 AI 融合,更注重以纯业务人员为中心,借助自然语言处理技术,打造搜索驱动的数据分析平台,实现数据消费的零门槛。不仅如此,它还能完美支持长尾数据,实现知识沉淀和经验共享。起初,这种尝试主要集中在数据消费层面,数据采集、加工、处理等环节的智能化应用较少。然而,近年来随着数据的充分消费,更多环节的智能化应用需求日益凸显,BI 正不断拓展智能化阶段的应用范围。/ 抖音集团企业级BI建设历程
2018年至今,抖音集团内部建设了自己的数据分析平台。在过去五年中,产品发展经历了三个阶段。● 第一阶段
夯实基础,专注于提升取数与分析效率;
● 第二阶段
丰富能力,建设了多终端、企业管理、以及智能归因等更强的分析能力;
● 第三阶段
创新突破,2021 年 4 月左右上线了可视化建模,让业务人员也能通过拖拉拽的方式进行数据清洗或加工。此外,在大模型的趋势下,从 2022 年底开始探索大模型与 BI 的融合。目前已对外开放了分析助手的售卖。
到现在,从产品架构来看智能数据洞察,主要分为五层:数据接入、查询引擎、数据建模、数据分析和数据展示,具备了高度的可运维能力。如今,智能数据洞察在抖音集团内部覆盖了绝大多数员工使用需求,可支持海量数据处理需求,实现秒级查询。数年来,大用户量、高并发的考验推动产品从夯实基础到创新突破的蜕变。在此过程中,平台也曾面临不少挑战,尤其是当平台用户量增加之后,需要不断在易用性、性能、成本之间做权衡和优化。
从实践经验看,当一款企业级平台在大型企业组织中落地推广,并逐渐深入业务后,用户数量、计算量和数据量会迅速增加,超出预期。因此,企业级 BI 不仅要满足功能性需求,还需充分考虑非功能性需求,以解决系统的性能和伸缩性问题。从长期维护的角度出发,则需确保系统能够应对未来大规模带来的压力。非功能性需求虽然难以直观体现,但却与每个用户的使用体验以及业务的顺畅进行息息相关。因此,需要一个高性能的数据分析架构方案。/ 高效数据分析的基石
完善的大数据架构及高性能查询引擎是高效数据分析的基石。智能数据洞察的技术架构,可以从六个层级(自下至上分别为:源数据层、存储层、计算层、OLAP 层、服务层、应用层)与系统服务合计七个部分来了解。
智能数据洞察支持直连和抽取两种方式。因此采用 ByteHouse 来实现查询加速,并围绕 ByteHouse 建设了深度的抽取查询链路。ByteHouse 是火山引擎基于ClickHouse 进行深度自研优化的产品,作为一个云原生的数据分析平台,它能够统一对离线和实时数据进行分析,并通过弹性扩展的计算层和分布式存储层来加速企业的分析和决策。数据存储均在 ByteHouse 内,无数据冗余,无需数据搬迁,多个服务可以共享一份数据(通过 AssumeRole 的方式保证跨服务传输和访问的安全性)。同时,它也保持了较高的灵活性,数据除了提供 DataWind 进行访问之外,也可以直连 ByteHouse 做自定义的接入和分析查询,灵活地获取数据,确保数据的可访问性和主权。/ 应用层精细化调优与治理
除了引擎本身的性能,也需要应用层的精细化调优和治理。智能数据洞察采用了多项技术,如多级数据聚合、冷热数据分层等,以进一步提高数据的查询性能,优化存储成本,从而最大程度地满足大型集团或高速发展企业的海量数据应用需求。在实际应用中,企业可以针对数据进行多级聚合分析,并结合缓存机制和实时访问,以实现大规模数据和高性能分析之间的平衡。通常企业会构建自己的数仓,但数仓中并非所有数据都可直接用于业务查询。常见的做法是根据实际情况建立业务数据宽表,这些宽表通常以明细数据表的形式构建,其中包含大量明细数据,但直接查询大量明细数据可能会导致性能压力。针对这种情况,智能数据洞察支持在同一数据集上配置宽表和聚合表,以提供不同粒度和维度的数据表,提高查询分析性能。智能数据洞察采用智能路由方案,在用户查询时,会根据查询的维度和指标,动态地适配或寻找最低消耗的聚合表来查询数据。若找不到合适的聚合表,查询将下沉到业务宽表。若宽表数据仍无法覆盖查询的分区范围,任务将转换为基于 Presto 引擎直接查询数仓中的数据。综上所述,从用户视角来看,在查询一份数据的过程中,实际上产生了多个粒度的聚合查询。系统根据实际情况匹配并命中相应的聚合表进行查询,从而实现最优性能。此处,智能数据洞察结合了 ByteHouse 的 Bitmap 能力,在聚合时会对需要去重计数的列(如 id 等)创建 Bitmap 索引,以便分析过程中,在聚合表中进行去重计数。如果客户的数仓建设尚未成熟完善,同时对 ByteHouse 存储大量数据的成本有所顾虑,那么智能数据洞察可以利用 ByteHouse 的冷热数据分层功能,在实现查询高性能的同时,有效节约资源成本。
随着数据量不断增长积累,数据的访问热度会呈现出巨大的差异。部分数据的访问频率会明显高于其他数据,例如通常情况下最近写入的数据的访问频率会比很久之前的数据高很多。针对数据的冷热情况,ByteHouse 采用了不同的存储策略和查询策略:对于热数据,进行特殊处理以实现高性能分析;对于冷数据,则实现低成本存储。这样可以从整体上提高访问和查询效率,减少资源浪费。随着数字化发展,数据量与日俱增,消耗成本也水涨船高,BI平台可能会因此出现运行越来越慢的情况。针对此类现象,智能数据洞察已积累了数据治理和优化的实践经验,能够提供精细化性能优化与成本治理的解决方案。
在集群方面,支持物理上的集群隔离,同时还支持分配资源组,将不同的资源组分配给不同的项目,从而实现物理和逻辑的双重隔离。
● 数据导入
在数据导入过程中,系统会对同步任务进行优化。在数据导入环节,系统通常会提供默认参数,而用户也可能会配置不同的参数,但这些参数并不一定是合理的。对于较小的任务,使用默认参数可能会导致资源浪费。
因此,针对这类同步任务,系统会进行自动优化。具体实现方式是:系统会采集任务运行的部分指标,并通过一定的算法来调整下一次执行的参数。这样,经过一段时间的优化后,任务运行的参数将达到合理状态,既能保证成本的合理性,又能在业务需要的时间范围内成功运行任务,从而实现对整体集群负载的良好控制。
● 查询性能
在查询性能方面,提供了多种治理手段以确保查询性能 p95 在2秒以内。例如:为不同的集群设定数据量的准入规则,以避免大数据量的表直接导入对集群稳定性造成影响;主动根据数据的查询模式,推荐对表设置主键、分片、索引等性能优化方案;对长时间无访问的数据进行识别并清理优化。
/ DataWind智能化方向探索
随着数据规模增长、数据处理与分析技术提升,数据的使用场景变得越来越丰富,BI平台成为这些数据消费场景的主要载体之一。
除了提供低门槛的产品功能和极致的分析性能外,智能化方面也有很多探索。通过AI能力,BI平台可以帮助业务人员在数据挖掘、归因分析、洞察决策方面提供智能化的解决方案。
/ AI数据挖掘:可视化建模
在数据准备阶段,将普通的数据 ETL 流程和 AI 挖掘流程进行合并。这使得普通的数据分析师除了能够快速进行数据的预处理外,还可以进行一些常见的数据挖掘操作,例如分类、回归和预测等。通过封装 30 类(40+)常见的算子,用户只需通过拖拽算子节点并配置相应的输入,就可以在数据流中直接应用这些算子。除了常见的 AI 算子外,还提供了一些常用的 AI 模型,如用于广告消耗预测的ARIMA模型。用户只需了解算法的应用场景,结合自身数据完成算子的基础配置和训练目标,即可完成模型的预训练。之后,该模型便可结合其他数据内容得到预测结果,为业务判断和决策提供支持。
/ 智能数据分析与洞察
除了数据处理过程中的数据挖掘外,针对数据结果进行异动检测和归因分析也是当前主流的智能化应用场景。抖音集团的商业智能(BI)团队在智能归因领域进行了大量的探索和尝试,最终成功地将异动检测、归因分析、洞察报告、指标分析树等产品化能力落地于实际业务中。(1) 用户对需要监控并进行异动分析的指标进行配置,包括异动检测算法和规则的设置,以及归因分析方法和路径的选择。
(2) 系统会根据约定自动进行指标数据的探查,并识别出异常点。
(3)系统自动按照默认或配置的分析思路和路径进行归因分析,生成归因报告,并将数据异动信息和归因报告推送给用户。
(4)用户收到报告后,可根据报告得出定性定量的结论,也可进入 BI 平台进行更深入的探索分析。
在归因分析中,即席归因是一种简单常用的实时归因手段,用户在发现指标异常时可以立即使用。以业务付款金额大幅增长场景为例,分析师或业务人员可以通过在图表的数据点上直接点击“默认归因分析”,快速获得自动归因结果。
归因结果如图所示:城市、省份、二级渠道这几个维度对这次付款金额增长有较大影响,其中北京、上海、济南三个城市的贡献度最大。这样用户就对这次指标的波动有了初步的分析依据,然后再利用可视化建模等探索分析功能,在特定的维度下做进一步精细化分析,最终得出结论。即席归因主要用于解决用户临时性的归因分析需求。而在抖音集团内部,也存在着大量这样的场景:分析师已经有了比较明确的分析思路,需要系统能够更智能、自动地基于数据和预制的思路进行分析,并生成分析报告。这就是归因报告功能的由来。
与即席分析相比,归因报告具备以下更深入的能力:
● 支持用户根据分析思路配置定制化分析过程,如维度归因,用户可自助选择需要归因的维度,支持通过下钻或组合的方式,联合多维度进行深度归因分析。
● 支持根据条件执行分析过程并生成分析报告,如定期执行或在指标波动超过一定阈值时自动执行。
● 通过 IM 推送报告,帮助用户第一时间获取数据归因结果。
AI洞察报告:例行数据探查、异常识别、报告生成、报告推送归因报告中能够支持三种报告类型,分别为异动分析、维度归因以及指标归因。
● 异动分析
异动分析报告通过自动探查指标,使用算法学习历史数据,预测指标的合理波动区间,从而判断指标是否存在异常,以获得数据洞察。
● 维度归因
维度归因用于将指标的变化在各个维度上进行拆解,并提供定量的贡献解释。根据用户配置,每天/每周会自动对指标进行探查,利用科学的归因算法分析对大盘指标产生影响的因素。
● 指标归因
指标归因用于分析多个相关指标对核心指标变动的影响,并提供量化的贡献解释。根据用户设置,每天/每周都将分析相关指标对核心指标的影响程度。
4. 指标分析树
指标分析树是归因分析的高级应用,它将指标异动归因能力分解成一个个节点,用户可以根据自己的实际业务场景将不同类型的节点进行组织和串联,形成一个可执行的“脑图”。在一张关系图上,用户可以清晰地看到核心指标的变化以及各个影响因子的贡献程度。此外,用户还可以通过下钻到具体的维度或关联指标,进一步深入分析影响细节。关于归因算法,针对不同的归因方式会有所不同。这里简单介绍一个常见的基础算法——基尼系数。基尼系数是经济学中常用的指标,用于衡量一个国家或地区居民收入差距。当基尼系数越小,说明当地居民收入越平均;当基尼系数越大,说明当地居民收入越不平均。
我们可以利用基尼系数的思想来分析哪个维度的枚举值对总体的影响最大。如果该维度的基尼系数最大,说明该维度下不同枚举的影响存在明显差异,因此该维度是需要重点关注的。在确认主要维度后,再结合贡献度法,计算该维度下各部分对总体的影响,并找出影响最大的部分。/ 大模型应用探索:分析助手
2022 年底,随着ChatGPT的兴起,各领域都在尝试应用大模型的能力,以创造和优化场景。其中,数据分析领域是最早尝试、进展最快的方向之一。大模型的推理、检索和生成能力,使数据的使用门槛在交互方式和分析技能方面都大幅降低。在大模型的加持下,BI+AI 的场景变得更加具体、可实现。智能洞察平台DataWind也在这方面做了大量的探索,不断进行迭代和优化,最终完成了以下几个场景的内部验证。● 数据准备阶段
通过大模型的自然语言和数据理解能力,帮助用户自动生成数据集的相关信息,包括数据集描述、字段名称/描述等,且在用户编写自定义SQL时提供SQL代码辅助能力。
● 自助分析阶段
大模型可以提供基于自然语言的图表生成能力。
● 仪表盘消费阶段
可以进行仪表盘生成、自定义主题配色,进行基于IM的仪表盘探索分析等能力。
在Gartner最新的魔力象限中,针对BI新增了三个关键能力定义,分别是metrics store, collaboration and data science integration(指标库、协作和数据科学集成)。从这新增的三个能力中,可以看出,数据资产的规范化、数据驱动业务的效率、数据科学的深度应用是当前比较重要的发展方向。Gartner 所预测趋势及关键能力定义变化,与我们的趋势判断相吻合。在近几年的 BI 平台建设中,我们认为有2个比较显著且值得关注的趋势:大模型趋势下,企业数据体系面临着新的挑战和机遇。围绕数据分析的链路来看,大模型在不同环节中都有着较大的探索空间。加速数据加工、数据预处理的过程——数据资产、高效计算、自动编排;进一步降低数据分析与挖掘的门槛,Consumers Become Creators;嵌入式AI助手,深入业务系统、OA、数据产品等领域。
点击阅读原文,了解更多