我要投稿

京东BI智能分析产品演化及大模型实践探索

发布日期：2024-04-16 18:40:25 浏览次数： 2529 作者：DataFunSummit

导读在当今数据驱动的业界，BI（商业智能）产品在企业决策支持中发挥着越来越重要的作用。本次分享将着重探讨 BI 产品的演化历程、当前面临的挑战，以及大模型实践在数据分析中的前瞻性探索。

主要内容分为以下几个部分：

1. BI 数据产品的演化之路

2. 精细化数据分析与数据产品困境

3. 突破困境：ABI 数据产品的应对策略

4. ⼤模型崛起：数据分析的新篇章

5. ⼤模型数据应⽤实践

6. 问答环节

分享嘉宾｜黄聪飞京东数据产品架构师

编辑整理｜蔡海鑫

内容校对｜李瑶

出品社区｜DataFun

BI 数据产品的演化之路

BI 主要指商业智能，源自 DSS（决策支持系统）。DSS 是一套辅助用户通过人机交互进行结构化、半结构化数据分析决策的系统，核心在于数据库、知识库和模型库的串联，实现结构化的角色，类似于决策树的形式。

BI 数据产品的演变经历了如下几个阶段：

第一阶段：1970s-1980s

BI 产品首次出现，主要应用于中小型企业，面临数据孤岛问题和报告生成时间较长的挑战。

第二阶段：1990s-2000s

数据技术发展，数据仓库、OLAP、ETL 技术成熟，但数据工作由产研部门主导，技术门槛高。

第三阶段：2000s-2010s

BI 2.0 时期，提升了 BI 的开发效率和实时处理协作能力，用户自主性增强，但面临数据量爆炸性增长的挑战。

第四阶段：2020s ⾄今

BI 3.0 时期，智能分析崛起，BI 演变为 ABI（分析与商业智能），头部公司包括 PowerBI 和 Tableau，生成式 AI（GBI）结合大语言模型开始流行。

精细化数据分析与数据产品困境

1. 精细化运营和数据驱动的双重挑战

精细化运营指的是基于成熟工具技术，通过深入分析和理解数据来提高运营决策效率和效果的管理模式。而数据驱动形成的前提是建立高效的数据决策和驱动体系。

电商所面临的挑战主要包括如下几大方面：

数据整合与口径统一

在多渠道和多平台的电商环境中，数据的收集和整合是⼀个巨⼤的挑战。需要解决数据孤岛问题，实现整合及⼝径统⼀。

数据的实时性与动态性

市场变化快速，需要实时或近实时的数据分析来⽀持运营决策。处理和分析⼤量实时数据是对技术和资源的巨大挑战。

快速分析与响应执行

当前的精细化运营需要快速响应分析课题，对运营表现给出解答，再通过有效的执⾏来实现运营优化和改进。数据分析如何触达业务表现也是一大挑战。

货：品类多样性

市场拥有众多不同的品类（万级别），每个品类都有其独特的运营和市场特性。不同的品类需要不同的分析⽅法和指标。

⼈：运营策略多样

不同消费者有着不同的购物决策方式，不同的业务用户也有着不同的分析方法。BI 产品需要通过丰富的自定义能力来匹配不同用户群体，允许用户通过多种数据角度的进行运营。

场：市场与竞争的快速变化

电商市场的竞争激烈，市场环境也在不断变化。现在市场上有多种销售模式和细分市场，通过不断地对市场进⾏快速分析，才能找到⾃身的竞争优势与劣势。

2. 数据产品困境

上述挑战使数据产品面临着船小少载⼈、船大难掉头的困境。

典型数据产品，如看板式产品，具有标准化和易用性优势，⽽且基于其固定性的特点，可针对大数据量、实时场景实⾏针对性的解决⽅案。传统 BI 提供⾃定义的数据看板，在灵活性和个性化上有⽐较大的优势。⽤户可以⾃⾏接⼊数据源，进⾏数据处理和分析。

但面临精细化运营的需求，则有着很多难以解决的问题。

（1）速度与成本的困境

看板式数据产品

当出现新业务和大型业务调整时，其改动牵扯较⼴，成本较大。

因为需要时间来调整和适应，往往难以跟上业务的变化速度。

传统 BI

⽤户需要学习产品功能，并具备⼀定的数据能⼒，学习成本高。

像准备数据源和多源建模的工作，对于⼀般⽤户来说，难以⾃⾏完成。

（2）通用性与多样性的困境

看板式数据产品

更多关注“通⽤性”，定制化能⼒有限。

灵活性是不够的，业务调整⼀个策略，可能就需要换多个视⻆分析，看板式数据产品很难满⾜。

传统 BI

⽤户⾃⾏搭建看板和数据时，容易出现⼝径差异，影响分析结果。

突破困境：ABI 数据产品的应对策略

1. 数据产品定位

京东数据产品的定位是人人都能上⼿的数据⼯具。主要包括两个方向：数据效率提升和数据民主化。

数据效率，包括数据使用效率和数据分析效率。

数据使用效率

将数据口径分成标准和非标准两类，标准口径由零售级的经分团队制定，非标准的口径由用户自建，多平台权限打通，形成个人数据资产。

数据准备效率

提供轻量级可视化建模的能力，用户通过简单交互即可实现多源建模和自助构建数据模型。

数据时效性

业务数据全面实时化，在自助分析场景下，也能够支持业务按需即时分析和调整。

数据民主化，旨在提升数据分析普适性，让人人都能分析，会分析，人人都是分析师，以数据工具的便捷性促成数据驱动。

低门槛分析工具

借鉴内部一体化分析平台的产品经验，将其作为用户学习、使用的范式，降低学习成本。同时，剥离工作流中的依赖关系，使用户能够独立完成整个分析和应用流程，不再依赖产研或分析师的介入。

数据共享协作

在合规的前提下，支持用户动态分享结果。与传统的静态数据分享方式不同，分享的结果是一个动态的入口，用户可以通过办公应用分享给老板和同事，接收人可以在此基础上，进行进一步的分析和探索，从而提高效率。

AI 分析师辅助

借助大模型进行 AI 分析，提升用户的分析能力，具体的辅助方式将在后文详细说明。

2. 解决方案：现代数据栈结构下的生成式 BI 工具

该解决方案构建了一个现代数据栈结构下的生成式 BI 工具。该解决方案参考了现有数据栈的定义结构，并结合前沿技术，以整体视角串联形成生成式 BI 工具。

其包含四个主要部分：数据接入、数据准备、数据分析、数据应用。

数据接入

数据可分为标准数据和非标准数据两类，依据口径要求区分。中台的指标服务提供封装口径的能力，使用户能够简便调用。同时提供维度关联能力，统一维度标准值，支持各生产方使用。用户也可以自行接入大数据平台的数据表。

存算引擎

使用 CK 和湖仓一体，通过配置方式将口径注册到指标服务，实现标准化流入。以直查数据湖配合服务加速优化的方式，解决自由分析实时数据的性能问题。

智能分析引擎

整合中台的统计分析能力，支持业务调用。根据查询场景进行智能路由，根据条件选择高性能的接口服务、查询引擎等。

数据准备

包括可视化建模、数据加工、特征工程，以及维度关联和 SQL 建模。

数据分析

降低用户的学习成本，通过规范的交互路径，并对用户选择的内容进行自动解析实现。提供多维数据钻取、联动分析和表达式计算字段能力。引入复杂报表类的可视化组件，能更灵活地呈现业务分析结果。

可视化搭建，支持视觉样式自定义和看板门户建设。通过大语言模型能力，支持自然语言创建看板和辅助建模。

数据应用

分为看板门户搭建、数字办公优化、大屏场景和嵌入式分析四大块。

大模型崛起：数据分析的新篇章

大语言模型是一种特殊的人工智能，通过大量文本训练，能够理解和生成原创内容。与先前的语言模型相比，主要区别在于规模和数据量。截至 2023 年，市场上主要有 OpenAI 的 GPT-4 和 GPT-3.5、Google的 Bard、Facebook 的 Llama、Claude 等，还有专为中文设计的 ChatGLM 和百川。

用户可根据场景选择适用的模型，没有一个模型能完成所有任务，选择应基于任务需求。例如，Claude 支持 100K，可单次处理大量文本。GPT-4 具有较强的逻辑推理能力，适用于需要按步骤推理的任务。

大模型在数据分析方面具有多项优势：

自然语言处理和理解，帮助用户更快地理解数据内容，处理非结构化数据如评价和媒体信息，并推断具体内容或主题。
智能推理和预测，能根据数据表现推理出差异、销售趋势和需关注的问题。
代码生成和自动化，大语言模型可通过自然语言转换 Python 和 R，降低技术门槛。
新的交互形式，使用语言交互方式降低使用门槛，无需学习多功能的使用，只需清晰表达问题即可。

大模型数据应用实践

接下来介绍我们内部的一个应用 ChatBI，它旨在通过对话方式完成 BI 工作，定位为专属于用户的 AI 数据分析师，基于 GPT 实现。用户可通过自然语言对话解决复杂的数据问题，其使用体验就像与真实数据分析师合作一样。

ChatBI 主要针对如下一些用户痛点：

了解数据难：业务口径复杂，指标难以理解。
信息获取难：新生业务定义、专有名词和内部知识难以获取。
数据分析难：欠缺数据分析思路及分析能力，一线业务很少具备代码能力。

解决方案为 GPT 大语言模型+公/私域知识库+数据分析应用扩展。

通过大语言模型做入口，自然语言对话即查询、分析，可有效降低使用门槛。另外，将沉淀的业务信息通过外挂知识库的形式，提供给大模型，从而获得更加准确的回答。集成中台的应用能力，通过 LangChain 的 agent 能力调用对应的数据工具去解答问题。

上图是 ChatBI 实现的基本结构图。

知识库

知识库主要使用 Langchain 进行大语言模型的开发。知识库分为两部分，一部分是数据中台的数据资产，包括数据的元数据、指标 SQL 和产品使用说明；另一部分是业务资产，包括业务自有模型和业务知识。

重点是业务的事实分析思路，分析师有能力解决很多业务问题，但是其能力很难沉淀下来进行复用，很难把每个分析师的思路都做成产品，也很难把分析思路直接交给采销或者一线业务。而大语言模型让这些变为了可能。

核心能力

用户提问后，首先进行意图识别，识别用户是否想要获取知识、进行分析，或者仅仅是聊天。通过实体识别获取用户提问中的实体信息，比如时间、指标、维度等，同时会通过用户背景信息，包括权限、部门等，去做辅助判断。如果意图是知识问答，则会与知识库进行交互，并通过嵌入优化来提升问答效率。对于数据分析场景，调用接口能力并将数据传入本地大模型进行安全的数据分析和总结，最后形成可视化结果。