我要投稿

用GenAI重新定义BI，Databricks推出AI/BI数据智能平台

发布日期：2024-06-18 12:51:44 浏览次数： 3110 作者：Bear实验室

一年一度的Databricks DATA+AI峰会，Databricks 隆重推出了 AI/BI，这是一款创新的商业智能产品，其设计核心在于深入挖掘数据的内在含义，并赋予用户自主分析数据的能力。AI/BI 基于一个先进的复合 AI 系统，该系统能够全面地从 Databricks 平台的数据生命周期中提取洞见，涵盖 ETL 流程、数据沿袭以及各类查询。这一系统支撑着两种相辅相成的产品体验：

AI/BI DashBoard：这是一个由人工智能驱动的低代码仪表板解决方案，它具备了您所期待的、即插即用的常规商业智能功能，能够解答一系列预设的业务问题；
Genie：这是一个会话式的交互界面，它能够持续地根据用户的反馈学习数据的深层结构和语义，借助其强大的推理功能，能够灵活地解答更多样化的业务问题，同时确保为数据团队设定的查询模式提供经过验证的答案。

AI/BI 与 Databricks 数据智能平台的集成可确保在任何数据规模下实现统一治理、沿袭跟踪、安全共享和顶级性能。GenAI 在 BI 领域一直表现不佳，Databricks相信 AI/BI 的设计可以克服这些问题。

为什么GenAI在BI领域表现不佳

过去三十年来，咱们的业务用户都是靠报告和仪表板来解决他们的数据疑问。但随着业务不断扩展，这些用户就得依赖那些既稀缺又忙碌的数据专家，来制作新的可视化工具来应对新问题。结果呢，业务用户和数据团队就像是陷入了一个没完没了的循环，虽然弄出了不少仪表板，但很多问题还是悬而未决。

现在，随着大型语言模型（LLM）的火热，BI行业开始尝试把AI助手集成到BI工具里，想要解决这个问题。可问题是，这些产品虽然理念上很有吸引力，演示起来也挺炫，但放到现实世界里就不太行了。面对那些乱七八糟的数据、含糊不清的语言和数据分析中的小细节，这些“附加”的AI体验很难给出既实用又准确的答案。

实际上，光是把LLM对准数据库结构然后做文本到SQL的转换是远远不够的，因为数据库结构本身并没有包含足够的知识，比如业务流程和指标的定义，或者怎么处理那些乱七八糟的数据。另一种办法是把这些理解用正式的语义模型来捕捉，但这需要很多前期投入，而且也没法把所有的细节都捕捉到，随着数据和业务流程的不断变化，想要保持这些模型的更新也是不现实的。

复合AI系统

"真正的"语义模型其实就藏在我们每个人的脑海里，每次我们用Databricks系统来执行查询、做仪表板或者搞分析的时候，这些知识就会自然流露出来。Databricks AI/BI就是一款新的BI产品，它能够捕捉到这些互动中的理解和知识，增强我们数据智能平台的上下文，然后用这些知识在现实世界里给出有用的答案。

说到复合AI系统，AI/BI的核心就是它了。这个系统里头有一群AI代理，它们专门负责解决业务问题，然后给出有用的答案。每个代理都有自己的专长，比如规划、生成SQL、解释、做可视化和认证结果。因为它们各有所长，我们就能为它们制定严格的评估标准，用最先进的大型语言模型（LLM）来优化它们。而且，这些代理还有别的组件支持，比如响应排名系统和向量索引，它们一起工作，能提供比任何单一模型都强的推理能力。

这个系统还能根据人的反馈不断学习，提高自己的性能。比如，如果告诉它什么是流失客户，AI/BI就会用这个知识来回答相关的查询，比如比较EMEA和美国的流失客户情况，还能用来计算流失率，或者推断留存客户的意思。AI/BI会把学到的知识长期记住，让自己越变越聪明，就像人类分析师一样。它还会从Databricks平台上其他关于数据的信息中学习，比如ETL流程、数据沿袭、流行度统计和其他数据查询。

最后，这个复合AI系统就是给DashBoard和Genie底层支撑。

AI/BI DashBoard

尽管有那些不足之处，但仪表板依然是把现成的分析工具用在日常工作里最有效的方式。AI/BI DashBoard让这个过程变得尽可能简单，它有个AI驱动的低代码创作体验，让用户轻松设置他们需要的数据和图表。

这些仪表板包含了所有你期待的标准BI功能，比如流畅的可视化效果、交叉筛选，还能定期通过电子邮件发送PDF快照。而且，它们没有那些你不需要的累赘——没有复杂的语义模型，不用做数据提取，也不用你操心管理什么新服务。更棒的是，只要点一下，用户就能跳到Genie空间，去探索那些在仪表板上看不到的洞见。

Genie

为了让用户能够解答那些DashBoard搞不定的一大堆而且老是在变的问题，他们搞出了一个叫Genie的对话界面，把AI/BI的推理引擎的能力给展示出来了。Genie可不光会用那几个固定的图表，它能学习背后的数据，然后用查询和可视化灵活地回答用户的各种问题。如果有疑问，Genie还会主动要求澄清，需要的时候还会提出不同的解决路径。

但最关键的是，Genie并不是那种让人摸不着头脑的黑盒子。业务用户问的问题有时候可重要了，他们不能就那么盲目地信任一个黑盒子AI系统给出的答案。所以，Genie的工作流程设计得特别人性化，就是想通过人工反馈让AI越用越聪明：它给分析师们提供了一整套工具，用来验证假设，必要的时候还能补充点信息。通过说明、认证答案、信任投票和质量监控这些手段，数据团队可以更好地调整、管理和测试Genie的性能，确保提供给业务用户的信息是值得信赖的。

Genie还用了“工具”这个概念来确保答案的可信度。有了“认证答案”这回事，分析师就可以告诉系统哪些是值得信赖的逻辑，比如Unity Catalog里的函数和指标，然后系统就可以用这些逻辑作为工具来回答问题。这样就能避免系统在逻辑推理上出现错误。Genie把这些“工具”整合到AI/BI的推理框架里，需要的时候就用它们来回答问题，并且还会告诉用户这个答案的可信程度。

未来

复合 AI 系统能够从数据的整个生命周期中洞察数据，这将彻底改变商业智能的世界。AI/BI 的首次发布代表着朝着实现这一潜力迈出的第一步，但意义重大。随着使用量的增加和系统的发展，系统将随着时间的推移变得更加智能。

开源 Unity Catalog

Databricks还开源了 Unity Catalog，这是业界首个跨云、跨数据格式和跨数据平台的数据和 AI 治理开源项目。以下是 Unity Catalog 愿景的最重要支柱：

开源 API 和实现：基于 OpenAPI 规范构建，是 Apache 2.0 许可下的开源服务器实现。兼容 Apache Hive 的 metastore API 和 Apache Iceberg 的 REST 目录 API。
多格式支持：可扩展，并支持 Delta Lake、通过 UniForm 的 Apache Iceberg、Apache Parquet、CSV 以及所有现有格式。
多引擎支持：凭借其开放 API，Unity 中分类的数据几乎可以被所有计算引擎读取。
多模式：支持所有数据和 AI 资产，包括表格、文件、功能、AI 模型。
充满活力的生态系统：这是一项社区努力，得到 Amazon Web Services、Microsoft Azure、Google Cloud、Nvidia、Salesforce、DuckDB、LangChain、dbt Labs、Fivetran、Confluent、Unstructured、Onehouse、Immuta、Informatica 等的支持。

该项目现已Github发布，这是我们将 Unity 愿景带入开源的第一步。Unity Catalog 托管在 LF AI & Data，这是 Linux 基金会的一个伞形基金会，支持人工智能 (AI) 和数据领域的开源创新，我们很高兴在未来的许多年里与开源社区合作实现这一愿景。

https://github.com/unitycatalog/unitycatalog

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业