微信扫码
添加专属顾问
我要投稿
开启数据智能新时代,DeepSeek引领数据分析革命。核心内容:1. DeepSeek如何重塑数据分析策略,提升计算能力2. 生成式人工智能对知识型工作和创造性工作的潜在影响3. 数据分析市场规模增长与专业教育发展
数据曾被誉为新的石油,但这种说法正在发生变化。随着人工智能的兴起,计算能力如今已成为核心资源,企业必须掌握这一资源,才能推动创新并取得成功。红杉资本在阐述其潜在影响时,毫不避讳地大胆断言:
生成式人工智能所涉足的领域 —— 知识型工作和创造性工作 —— 涵盖数十亿从业者。(如果)生成式人工智能能让这些从业者的效率和 / 或创造力至少提高 10%:他们不仅会变得更快、更高效,而且比以前更有能力。因此,生成式人工智能有潜力创造数万亿美元的经济价值。
这一大胆断言能否实现,目前市场正在验证。无论如何,它与此前的发明存在相似之处,其潜在影响也不容小觑。人们在试图捕捉这项新技术的魅力与重要意义时,常常将其与互联网和移动电话的问世相提并论。
那么,人工智能将如何影响 “知识型工作” 呢?尤其是数据分析,在短时间内实现了快速发展,这引发了人们对数据分析所提供价值的质疑。这使得人们越发渴望有更好的标准和工具,以满足实现价值的需求。近期,作为一个专业领域,数据分析在改进方面取得了进展,比如采用软件工程实践。引入像人工智能这样的新变量看似令人却步,且需要考虑诸多因素。然而,将人工智能融入公司的数据战略至关重要,忽视它将错失良机。我们认为,这样做将加速通过数据分析实现商业价值,充分释放其潜力。
数据分析市场增长迅猛,且将持续发展。预计到 2030 年,该市场的复合年增长率将达到 27.3%²。
图1:2017-2030年北美数据分析市场规模
十年前,数据分析专业,特别是数据科学专业,在大学课程中并不常见。在数据科学与数据分析学位数量增多之前,从其他分析领域转行到数据分析要容易得多。专业人士可以从物理学、数学、会计学、经济学等多种不同的分析背景领域实现转行。
然而,在过去五年里,情况发生了根本性的变化。高等教育学位数量的增长反映出人们对该领域整体的兴趣 —— 美国国家教育统计中心 “报告称,数据科学专业学士学位授予数量近期激增 968%³,从 2020 年的 84 个增加到 2022 年的 897 个”。
从广义上来说,利用数据分析并不是新鲜事 —— 例如,会计和金融是极具分析性的领域,在向公众报告有关公司财务状况的指标时,有着严格的定义和规定。不过,现代意义上的数据分析旨在从公司专有信息中获取尽可能多的信息。这种定制化带来了一系列独特的挑战,需要有别于传统软件工程的思维方式。软件工程编写的代码具有确定性,甚至可能是幂等的,而数据管道会且确实会因每周的数据采集过程而有所不同。
数据如同 “流沙”,需要类似软件工程的标准,但也需要新工具。这就是为什么数据网格(data mesh)概念一经提出,便在数据领域引起共鸣,就如同《敏捷宣言》⁴ 之于软件工程师一般。它解决了数据在组织内分布不可靠且碎片化这一痛点。联邦式产品所有权的理念也颇具吸引力,因为集中式的提取 - 转换 - 加载(ETL)流程变得过于繁琐和迟缓,无法快速满足组织的分析需求。
这就引发了从 ETL 向 ELT 的转变,以 dbt⁵ 等开发工具为引领,在这种模式下,数据转换成为最后一步,由数据分析师或分析工程师负责。这种赋予数据团队自行创建数据表的权力,而非依赖数据架构师构建数据模型的方式,缩短了数据使用者获取数据所需等待的时间。
图 2:ELT 流程
然而,随着速度的提升,源自少数数据源的数据表大量涌现。被忽视的一点是对 “最终加载” 的考量,即数据如何呈现给终端用户。通常,ETL 管道会直接从数据转换环节进入可视化工具(如 Tableau、PowerBI 或 Looker)或电子表格,而不是将经过建模的数据返回数据库。
图 3:ELTL:展示 ELT 之后的额外步骤
考虑到通常还需要最终加载这一步,将最终结果交付给用户,或许一个更准确的缩写应该是 ELTL。在此最终加载之前缺失的数据治理环节,便是一直以来所遗漏的部分。
在不考虑数据治理的情况下,直接将数据交付给业务用户,引发了诸多问题。用户在相互比较仪表盘数据时,会发现相似的指标得出不同的结果。由于测试环节未得到足够重视,错误会进入最终产品 —— 这与软件工程不同,在软件工程中单元测试至关重要。随着数据分析领域的成熟,软件工程已经历过的学习周期,在该领域再次上演。
为提高准确性,dbt 提供了测试工作流程的方法,并推出了语义层。语义层定义通用指标,以确保整个组织内的数据一致性。这些都是重要的改进,为在数据分析领域增添更多数据治理措施奠定基础。此外,许多注重数据目录的数据治理解决方案应运而生。如今,我们甚至有了更多工具,它们强调软件工程原则,与 dbt 竞争,如 SQLMesh,丰富了多样的选择。
考虑到上述情况,既然我们有了人工智能,它该如何融入其中呢?人工智能正应用于最后 “加载” 步骤的方方面面 —— 从电子表格、可视化工具到数据库中的人工智能应用。所有这些最终加载环节都很重要,但我们认为,最重要的是在数据仓库中已建模的数据之上应用人工智能。
图 4:随后,人工智能代理可借助多种工具,在最后 “加载” 步骤中展示信息。
若没有这一环节以及数据治理,人工智能项目很可能失败。
在当前人工智能的能力、可靠性以及对人工智能必然发展的前瞻性规划之间,需要找到平衡。根据我们的经验,当前的人工智能能力在很大程度上依赖于有完善文档记录的语义层。这个语义层建立在数据库中关于表的元数据之上。这些表需要进行建模,并说明它们之间的相互关系。人工智能有助于发现这些关系,但只有当这些关系得到确认时,人工智能才能发挥最大作用。
图 5:AI 实体关系图(ERD)数据库资源管理器图示
所有元数据之所以重要,是因为人工智能需要上下文信息。典型的智能代理人工智能系统将基于 RAG(检索增强生成)技术构建。RAG 能在将信息发送至所使用的人工智能模型之前,检索上下文信息并将其放入提示词中。
为提高这些系统的准确性,智能代理工作流程需要设置多项检查机制,比如主键检查和连接定义。确立这些机制不仅能提升人工智能的输出质量,还能让诸如 SQLMesh 这样的工具更轻松地整合到对人工智能输出结果的审核流程中。在 SQLMesh 中,定义一行数据的列组合被称为 “粒度”,连接关系则被称为引用⁶ 。这些基本要素能够为构建具备防护机制的人工智能系统提供支持,使其准确性超越 RAG 单独所能达到的水平。
这种对数据建模的重新重视,会让一些人点头称我们仿佛 “回到原点”。但这么说还为时过早,因为截至目前,整个流程的变化让数据专业人员在创建数据表方面,比以往拥有了更多自主权。将数据提供给业务用户的速度明显加快。然而,尽管速度加快了,但仍然不够快。数据团队成了瓶颈,而且在仪表盘上添加新过滤器并非总是向终端用户提供信息的最佳方式。引入人工智能后,数据查询和检索时间在某些情况下将从数周缩短至数秒。
这令人兴奋,但也很容易让人自满,重蹈覆辙。也就是说,可能会导致数据生成进一步泛滥,却不关注数据治理。这就是为什么最成功的人工智能数据应用程序必然包含数据治理。在我们看来,这并非可有可无,而是打造可靠的人工智能数据代理的一项关键要素。
所以,引入人工智能将提高速度,增强对数据建模和治理的依赖,改进元数据及文档记录工作。它还有哪些帮助呢?它将有助于在需要时精准获取所需信息。有些仪表盘存在组合问题 —— 有许多过滤器,每个过滤器又有众多不同选项,由此产生的视图多得让人根本没时间一一梳理。人工智能正在为企业内部带来谷歌为消费者带来的便利:近乎即时地访问数据,并获得全新见解。这种精准获取所需内容的能力,我们称之为 “精准分析”。这个术语源于医疗领域,“精准医疗” 指的是为患者提供量身定制的治疗方案。鉴于数据和指标可能存在众多组合,精准分析能让人工智能根据你的具体用例,为你提供恰到好处的数据转换结果。
将单个 SQL 查询视为独立的数据单元,我们称之为 “数据对象”。借助人工智能,用户可以生成许多不同且独特的数据对象,它们在几个方面与仪表盘有所不同:数据对象更易于访问和比较,比较数据对象的功能是内置的。数据对象也被称作数据产品和数据模型,但目前我们暂且使用 “数据对象” 这一名称,用以描述响应用户指令的 SQL 查询。
图 6:AI 数据页面满是数据对象的图示
目前,数据对象被定义为以下三种类型之一:指标(一行一列)、记录(一行多列)以及数据集(多行多列)。确定数据类型有助于更便捷地组织和共享数据,同时也定义了我们组织数据对象的方式。
我们有机会借助人工智能DeepSeek解决数据领域的一些根本性问题。市面上已有许多工具,有的提供了可直接与你的数据集成的解决方案,有的则让你能从零构建。人工智能DeepSeek数据分析解决方案大致可分为两类功能:一类解决方案从数据库或文档等数据源查询数据;另一类则是从已有的报告中检索数据。我们将分别探讨这两类方案,然后说明未来它们如何结合。
这类工具是在分析报告的数据目录之上构建人工智能代理。与从原始数据源获取数据相比,从已有的报告中检索数据,最大的弊端在于不同报告之间可能存在不一致。这就是为什么将重点放在查询数据作为坚实的起点,然后在此基础上构建对现有报告的检索功能。我们预测,提供强大的人工智能数据治理和可解释性的工具将会蓬勃发展。
这里,与查询数据的区别很重要。一些仅专注于从现有来源检索数据的公司,不会尝试以任何方式转换数据,而是直接呈现已经转换好的信息。
文本转 SQL 真的可行吗?嗯,如果以搜索技术作为参考,其进展会持续提升。我们认为,这项技术目前已适用于企业解决方案,能够提供准确且相关的结果。一个证明就是在著名的文本转 SQL 基准测试 Spider⁷ 上所取得的进展。Spider 基准测试是开创性的 WikiSQL 基准测试⁸ 的后继者,弥补了其一些不足。在撰写本文时,执行带数值任务的最佳模型得分达到了 91.2%。这样的高分看似仍有最后的 9% 有待提升,然而,人工智能基准测试往往存在误差,超出当前性能的进一步提升很可能意味着模型过度拟合于该基准测试。作为参考,MMLU(一种流行的大语言模型基准测试)的错误率约为 9%⁹。
大语言模型(LLMs)的出现促使 Spider 基准测试背后的团队推出了一项新挑战,称为 Spider 2.0¹⁰。这个更具挑战性的基准测试目前的最高分仅略高于 17%。这是一个多步骤工作流程,可用于测试检索增强生成(RAG)工作流程的性能。这是一个令人兴奋的新基准测试,有助于展示这些系统在实际应用中的表现。
图 7:智能文本转 SQL 工作流程示例
那么,文本转 SQL 真的可行吗?答案是肯定的,它已经在发挥作用了。不过,需要设置一些防护措施,以确保结果足够准确,从而产生切实的影响。有几种方法可以确保这一点,同时也能让我们对当前的进展保持客观认识。
构建一个成功的文本转 SQL 系统时,上下文至关重要。一个常见的担忧是,其准确性是否足以让数据团队安心,确保他们来之不易的信任不会被一个不准确的人工智能系统破坏。围绕人工智能构建的应用程序才是最重要的;从一开始就需要考虑对结果的信任问题。
对这些模型当前的能力保持现实认知很重要。我们发现,当前的系统需要良好的数据治理和元数据作为基础才能取得成功。人工智能数据代理可以比作新聘请的数据分析师 —— 如果你让数据分析师计算公司过去一个月获得的潜在客户数量,没有一些背景信息,这位数据分析师就不知道从何下手。他们可能会问很多问题来找准方向。数据代理也没什么不同 —— 如果文档不完善且元数据不存在,那些对文本转 SQL 应用程序持批评态度的人就说对了,它确实行不通。然而,对于那些拥有定义明确的模式、最新的元数据以及公司内部术语业务词汇表的情况,例如,数据智能体就能发挥作用。
除了信任基础和元数据,还需要为数据团队和业务用户提供控制权。无论采用何种实施形式,所提供的控制权都需要让双方确信,他们了解信息的来源,并且能够自行审核。以下是一些对数据团队有益的控制示例:
当人工智能对回答某个问题信心不足时,需要通知数据团队,以便将该问题转交给他们。
能够审核人工智能提供的 SQL 查询,以及人工智能得出最终答案的思路。
业务用户也需要通过以下方式对人工智能进行控制:
能够作为 “人工介入环节”,向人工智能提供反馈。
所有这些要素只有在智能代理架构中才有可能实现。在 LangChain 一篇描述认知架构的文章 ¹¹ 中,他们提供了一张图表,根据能力水平对大语言模型系统进行了排名。
图 8:“认知架构是什么?”,作者哈里森・蔡斯
智能体可被视为一种状态机(第 5 级)。未来的智能代理很可能在追问后续问题方面表现得更为出色,并且在元数据不完善的情况下,它们将能够收集所需信息。成功的架构不仅利用其智能代理进行查询和检索,这些智能代理还将能够根据用户反馈更新丰富的元数据。新一代的数据分析解决方案将产生飞轮效应,带来更好的文档记录,并在重要数据指标上达成更大程度的共识。
我们认为,最成功的平台将依赖人工介入来提升人工智能的输出。像声称人工智能代理几乎能自主运行的产品,如 Devin¹² ,结果并不理想,而诸如 Windsurf¹³ 和 Cursor¹⁴ 这类依赖人工介入的工具,已显示出大幅的生产力提升。各公司务必要对当前人工智能的能力有客观认识,并设置适当的防护措施。考虑到目前为使人工智能代理取得成功,人类必须深度介入的程度,现阶段将人工智能数据智能体视作数据团队的助手,而非完全成熟的协作伙伴,可能是最为恰当的。
推出一个成功的人工智能数据应用程序所需的范畴,比传统商业智能(BI)工具更为广泛。为了让人工智能取得成功,治理和管控必须作为解决方案的一部分内置其中,而不能事后才考虑。这就是为什么我们更倾向于使用 “数据智能平台”¹⁵ 或 “人工智能数据分析平台” 这一术语。数据智能平台超越传统 BI 平台单纯注重可视化的一些关键方面包括:
我们采用数据源无关的方法,我们认为这很重要,能让工程师们发挥所长 —— 选择合适的技术,为用户打造强大的体验。任何可使用 SQL 查询的数据源都能采用,鉴于越来越多的工具实现了 SQL 接口来查询数据,这就开启了无限可能。我们不仅提供 API,以便在我们的解决方案之上构建自定义用户界面(UI),还准备了一个美观的界面,可立即为用户提供洞察。
那么,什么样的人会从这样的解决方案中受益呢?主要受益者有:
数据团队
业务用户(即数据使用者)
人工智能数据分析平台,旨在解决数据治理方面的问题,且内置了指标共享功能。
许多公司都在宣传 “专属你的人工智能数据分析师” 或 “个人人工智能数据科学家”。然而,未来的趋势是将所有这些数据相关角色整合到一个数据代理中。这个数据代理最终将能够涵盖数据成熟度生命周期的各个方面,包括:
1.临时与被动响应
2.描述性报告(“发生了什么”)
3.诊断性报告(“为什么会发生?”)
4.预测性分析(“将会发生什么?”)
5.规范性分析(“我们如何促成此事?”)
大多数解决方案仅针对数据成熟度生命周期的某一特定方面。然而,我们的目标是最终囊括所有领域,真正为企业创造价值。在我们迈向不可避免的人工智能驱动的数据分析转型过程中,我们很高兴能够助力实现这一愿景!
1.Sonya Huang, Pat Grady, Generative AI: A Creative New World (2022), Sequoia Capital
2.Data Analytics Market Size, Share Analysis… (2024), Fortune Business Insights
3.Lauren Coffey, Data Science Major Takes Off (2024), Inside Higher Ed
4.Kent Beck, James Grenning, Robert C. Martin et. al, Manifesto for Agile Software (2001)
5.What is ELT (Extract, Load, Transform)? (2024), dbt
6.SQLMesh Docs, SQLMesh
7.Spider 1.0: Yale Semantic Parsing and Text-to-SQL Challenge, Yale University
8.WikiSQL, Github
9.Aryo Pradipta Gema, et. al, Are we Done with MMLU? (2024), Arxiv
10.Fangyu Lei, Jixuan Chen, Yuxiao Ye, et. al, Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows, Yale University
11.Harrison Chase, What is a “cognitive architecture”? (2024), LangChain
12.Devin https://devin.ai/
13.Windsurf https://codeium.com/windsurf
14.Cursor https://www.cursor.com/
15.Michael Armbrust, Adam Conway, et. al., Data Intelligence Platforms (2023), Databricks
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-02-22
借助DeepSeek,轻松实现PowerBI多年不支持的可视化效果,时代确实变了
2025-02-22
对话式BI革命:WrenAI如何让老板秒懂企业数据?
2025-02-22
TiDB Chat2Query 深度解析:我们如何打造一款更高效、准确的智能 SQL 生成工具?
2025-02-20
基于 LLM 的查询扩展:信息更全,搜索更准
2025-02-20
滴滴ChatBI技术实践:智能数据分析的前沿探索与应用
2025-02-19
腾讯开源的!厉害!新一代的BI平台
2025-02-16
秘塔AI:更好的DeepSeek R1搜索体验
2025-02-16
搜索要变天了!微信直接接入DeepSeek,首度内测AI功能
2024-06-20
2024-10-14
2024-06-16
2024-06-14
2024-10-09
2024-05-31
2024-06-14
2024-07-03
2024-07-24
2024-06-06
2025-02-22
2025-02-22
2025-01-30
2025-01-22
2025-01-13
2025-01-07
2025-01-02
2024-12-25