用GenAI重新定义BI,Databricks推出AI/BI数据智能平台
发布日期:2024-06-18 12:51:44
浏览次数: 2533
来源:Bear实验室
一年一度的Databricks DATA+AI峰会,Databricks 隆重推出了 AI/BI,这是一款创新的商业智能产品,其设计核心在于深入挖掘数据的内在含义,并赋予用户自主分析数据的能力。AI/BI 基于一个先进的复合 AI 系统,该系统能够全面地从 Databricks 平台的数据生命周期中提取洞见,涵盖 ETL 流程、数据沿袭以及各类查询。这一系统支撑着两种相辅相成的产品体验:- AI/BI DashBoard:这是一个由人工智能驱动的低代码仪表板解决方案,它具备了您所期待的、即插即用的常规商业智能功能,能够解答一系列预设的业务问题;
- Genie:这是一个会话式的交互界面,它能够持续地根据用户的反馈学习数据的深层结构和语义,借助其强大的推理功能,能够灵活地解答更多样化的业务问题,同时确保为数据团队设定的查询模式提供经过验证的答案。
AI/BI 与 Databricks 数据智能平台的集成可确保在任何数据规模下实现统一治理、沿袭跟踪、安全共享和顶级性能。GenAI 在 BI 领域一直表现不佳,Databricks相信 AI/BI 的设计可以克服这些问题。过去三十年来,咱们的业务用户都是靠报告和仪表板来解决他们的数据疑问。但随着业务不断扩展,这些用户就得依赖那些既稀缺又忙碌的数据专家,来制作新的可视化工具来应对新问题。结果呢,业务用户和数据团队就像是陷入了一个没完没了的循环,虽然弄出了不少仪表板,但很多问题还是悬而未决。现在,随着大型语言模型(LLM)的火热,BI行业开始尝试把AI助手集成到BI工具里,想要解决这个问题。可问题是,这些产品虽然理念上很有吸引力,演示起来也挺炫,但放到现实世界里就不太行了。面对那些乱七八糟的数据、含糊不清的语言和数据分析中的小细节,这些“附加”的AI体验很难给出既实用又准确的答案。实际上,光是把LLM对准数据库结构然后做文本到SQL的转换是远远不够的,因为数据库结构本身并没有包含足够的知识,比如业务流程和指标的定义,或者怎么处理那些乱七八糟的数据。另一种办法是把这些理解用正式的语义模型来捕捉,但这需要很多前期投入,而且也没法把所有的细节都捕捉到,随着数据和业务流程的不断变化,想要保持这些模型的更新也是不现实的。"真正的"语义模型其实就藏在我们每个人的脑海里,每次我们用Databricks系统来执行查询、做仪表板或者搞分析的时候,这些知识就会自然流露出来。Databricks AI/BI就是一款新的BI产品,它能够捕捉到这些互动中的理解和知识,增强我们数据智能平台的上下文,然后用这些知识在现实世界里给出有用的答案。
说到复合AI系统,AI/BI的核心就是它了。这个系统里头有一群AI代理,它们专门负责解决业务问题,然后给出有用的答案。每个代理都有自己的专长,比如规划、生成SQL、解释、做可视化和认证结果。因为它们各有所长,我们就能为它们制定严格的评估标准,用最先进的大型语言模型(LLM)来优化它们。而且,这些代理还有别的组件支持,比如响应排名系统和向量索引,它们一起工作,能提供比任何单一模型都强的推理能力。这个系统还能根据人的反馈不断学习,提高自己的性能。比如,如果告诉它什么是流失客户,AI/BI就会用这个知识来回答相关的查询,比如比较EMEA和美国的流失客户情况,还能用来计算流失率,或者推断留存客户的意思。AI/BI会把学到的知识长期记住,让自己越变越聪明,就像人类分析师一样。它还会从Databricks平台上其他关于数据的信息中学习,比如ETL流程、数据沿袭、流行度统计和其他数据查询。最后,这个复合AI系统就是给DashBoard和Genie底层支撑。尽管有那些不足之处,但仪表板依然是把现成的分析工具用在日常工作里最有效的方式。AI/BI DashBoard让这个过程变得尽可能简单,它有个AI驱动的低代码创作体验,让用户轻松设置他们需要的数据和图表。这些仪表板包含了所有你期待的标准BI功能,比如流畅的可视化效果、交叉筛选,还能定期通过电子邮件发送PDF快照。而且,它们没有那些你不需要的累赘——没有复杂的语义模型,不用做数据提取,也不用你操心管理什么新服务。更棒的是,只要点一下,用户就能跳到Genie空间,去探索那些在仪表板上看不到的洞见。为了让用户能够解答那些DashBoard搞不定的一大堆而且老是在变的问题,他们搞出了一个叫Genie的对话界面,把AI/BI的推理引擎的能力给展示出来了。Genie可不光会用那几个固定的图表,它能学习背后的数据,然后用查询和可视化灵活地回答用户的各种问题。如果有疑问,Genie还会主动要求澄清,需要的时候还会提出不同的解决路径。但最关键的是,Genie并不是那种让人摸不着头脑的黑盒子。业务用户问的问题有时候可重要了,他们不能就那么盲目地信任一个黑盒子AI系统给出的答案。所以,Genie的工作流程设计得特别人性化,就是想通过人工反馈让AI越用越聪明:它给分析师们提供了一整套工具,用来验证假设,必要的时候还能补充点信息。通过说明、认证答案、信任投票和质量监控这些手段,数据团队可以更好地调整、管理和测试Genie的性能,确保提供给业务用户的信息是值得信赖的。Genie还用了“工具”这个概念来确保答案的可信度。有了“认证答案”这回事,分析师就可以告诉系统哪些是值得信赖的逻辑,比如Unity Catalog里的函数和指标,然后系统就可以用这些逻辑作为工具来回答问题。这样就能避免系统在逻辑推理上出现错误。Genie把这些“工具”整合到AI/BI的推理框架里,需要的时候就用它们来回答问题,并且还会告诉用户这个答案的可信程度。复合 AI 系统能够从数据的整个生命周期中洞察数据,这将彻底改变商业智能的世界。AI/BI 的首次发布代表着朝着实现这一潜力迈出的第一步,但意义重大。随着使用量的增加和系统的发展,系统将随着时间的推移变得更加智能。Databricks还开源了 Unity Catalog,这是业界首个跨云、跨数据格式和跨数据平台的数据和 AI 治理开源项目。以下是 Unity Catalog 愿景的最重要支柱:- 开源 API 和实现:基于 OpenAPI 规范构建,是 Apache 2.0 许可下的开源服务器实现。兼容 Apache Hive 的 metastore API 和 Apache Iceberg 的 REST 目录 API。
- 多格式支持:可扩展,并支持 Delta Lake、通过 UniForm 的 Apache Iceberg、Apache Parquet、CSV 以及所有现有格式。
- 多引擎支持:凭借其开放 API,Unity 中分类的数据几乎可以被所有计算引擎读取。
- 多模式:支持所有数据和 AI 资产,包括表格、文件、功能、AI 模型。
- 充满活力的生态系统:这是一项社区努力,得到 Amazon Web Services、Microsoft Azure、Google Cloud、Nvidia、Salesforce、DuckDB、LangChain、dbt Labs、Fivetran、Confluent、Unstructured、Onehouse、Immuta、Informatica 等的支持。
该项目现已Github发布,这是我们将 Unity 愿景带入开源的第一步。Unity Catalog 托管在 LF AI & Data,这是 Linux 基金会的一个伞形基金会,支持人工智能 (AI) 和数据领域的开源创新,我们很高兴在未来的许多年里与开源社区合作实现这一愿景。https://github.com/unitycatalog/unitycatalog
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业