AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


腾讯分析型 BI+AI 产品 OlaChat 创新探索
发布日期:2024-11-16 10:06:20 浏览次数: 1898 来源:DataFunSummit


导读 随着大数据和人工智能技术的快速发展,BI 领域正经历着前所未有的变革。BI 与 AI 的结合不仅为数据分析师和业务决策者提供了更强大的工具,也为整个数据生态系统带来了新的活力。在本次技术分享中,我们将深入探讨 BI 与 AI 结合的实践与思考,特别是如何利用 AI 技术提升 BI 产品的智能化水平,以及在此过程中产品形态上遇到的挑战和解决方案。
本文将从以下几个方面进行详细阐述:
1. BI 分析市场趋势
2. BI 和 LMM 的结合点
3. 案例:腾讯 PCG 大数据平台在 BI+AI 领域(Olachat)的探索与实践(本文主要论述 BI 产品结合 AI 能力合理的产品形态选型过程,更多 agent 技术细节、准确率等相关信息可参考
谭云志,公众号:DataFunTalk腾讯基于 LLM 的智能数据分析平台 OlaChat 的落地实践

4. 问答环节

分享嘉宾|樊帆 腾讯 产品及增长负责人

编辑整理|张静瑜

容校对|李瑶

出品社区|DataFun

01

BI 分析市场趋势


在数字化转型的大潮中,BI 作为帮助企业进行决策支持的数据分析工具,其重要性日益凸显。随着时间的推移,BI 领域经历了从传统 BI 到敏捷 BI 的转变,并正在向智能 BI 迈进。智能 BI 的发展方向得益于 AI 技术的持续创新,如自然语言处理、推荐算法、AIGC 等。这些技术的迅猛发展为 BI 领域带来了新的想象力,使得 BI 产品能够更加智能化、自动化



02


BI 和 LMM 的结合点


1. 智能 BI 的愿景与实现路径


(1)智能 BI 的愿景


智能 BI 的核心愿景是通过自然语言查询或业务问题直接获得数据结果和分析结论。这意味着用户可以直接提出问题,系统能够理解其意图,并自动完成数据分析的全过程。具体来说,这个过程可以分为四个步骤:


  • 业务问题翻译:将业务问题转化为数据分析问题。


  • 数据资产定位:从数仓中找到需要分析的数据资产。


  • 查询条件生成:生成相应的 SQL 或 Python 代码以获取数据。


  • 分析结论总结:基于数据结果生成分析结论或决策建议。


(2)大模型在智能 BI 中的应用


大模型在智能 BI 中的应用主要体现在以下几个方面:


  • 自然语言处理与理解能力


    大模型的自然语言处理能力使用户能够用自己熟悉的语言来查询和分析数据,大大降低了数据分析的门槛,使非技术用户也能轻松上手。


    大模型能够处理和分析非结构化数据,如客户评价和媒体内容,从而提取出有价值的信息和洞察,为企业提供全面的数据视角。


  • 检索增强(RAG):大模型与 RAG 结合可以让检索的效果更加强大,能更精准地从大型知识库中找到和定位相关信息。同时在生成过程中也可以更好地复用知识库的信息,减少幻觉、提升准确性。


  • 代码生成与自动化:大模型还能够通过自然语言指令生成 SQL 、Python 等编程语言的代码,使得即使是没有编程背景的用户也能够完成复杂的数据分析任务。


  • 智能推理与预测:大模型可基于现有数据进行推理和预测,帮助用户识别数据中的异常点、趋势以及潜在的问题和机会。



2. 面临的挑战与解决方案


尽管智能 BI 前景广阔,但在实际应用中仍面临一些挑战:


(1)准确性问题


由于 LLM 主要通过训练数据学习,如果训练数据不包含足够的行业特定知识或上下文信息,模型可能难以准确理解复杂的业务数据。因此,LLM 可能在理解复杂数据集、特定行业术语或上下文中的细微差别方面存在挑战。这可能导致数据分析结果的误解或错误解释。同时大模型的幻觉问题也带来了极大的误差。


(2)上下文多轮对话问题


聊天机器人需要在对话中保持上下文的连贯性和相关性,理解用户的意图和情感,对对话系统具有极大的挑战。


(3)系统交互体验


业务系统的特殊逻辑(权限、多系统间的交互逻辑等)需要迁移到对话系统中,如需确保产品能够提供自然、流畅的交互体验,需要极大的适配成本及相应的开发量。



3. 业界领先产品的实践案例:Tableau 和 Power BI 的 Copilot 功能


Tableau 和 Power BI 等领先的 BI 工具并没有执念对话形态,而是采用了 Copilot 的形式,将 AI 能力定位为 BI 工具中的助手。用户可以在右侧的 Copilot 面板区域实时提问,获取结果后辅以 BI 流程操作。例如,在 Excel 中,用户可以通过指令性任务筛选出特定数据,操作左侧的表格。



4. 融入当前 BI 流程处理单点问题


对于 Olchat 产品来说,我们认为更好的产品形态是将 AI 能力融入到用户当前的 BI 作业流程中,处理每一个具体的单点问题。这样可以更精准地提供结果,帮助用户解决实际问题。例如,在找数据、数据描述与加工、分析、可视化等环节,通过 AI 辅助,用户可以更高效地完成任务。



03


案例:腾讯云大数据平台在 BI+AI 领域的探索与实践


1. Text2SQL 能力展示


在数据分析的作业流程中,编写 SQL 查询是一个高频且关键的环节。传统方式下,用户需要具备一定的 SQL 知识才能进行数据操作,这不仅增加了使用门槛,还可能因为手动编写 SQL 而引入错误。因此,利用自然语言处理技术实现文本到 SQL(Text2SQL)的转换能力,可以显著提升用户体验和工作效率。


工作原理


Text2SQL 技术通过将用户的自然语言查询转化为结构化的 SQL 语句,使非技术人员也能轻松进行数据查询。具体来说,当用户输入一个业务问题或分析诉求时,系统会理解其意图,并生成相应的 SQL 代码。这一过程主要涉及以下几个步骤:


  • 选择表:根据用户选择的数据源范围,确定查询的数据表和字段。


  • 理解用户意图:系统首先解析用户的自然语言输入,识别出具体的分析需求。


  • 回填 SQL :基于解析的结果,系统自动生成符合用户需求的 SQL 查询语句。生成的 SQL 代码可以回填到 SQL 工作区,允许用户进行进一步的手动调整,以确保准确性和完整性。



2. Text2 界面化拖拽分析能力展示


在数据分析的实际工作中,拖拽分析是产品运营岗位常用的功能,通过图形化界面可以简化数据查询和报告的过程。拖拽分析虽然用户友好,但需要用户手动配置指标、维度和过滤条件,对于非技术背景的用户来说,这仍存在一定的门槛。为了降低这一门槛,我们引入了 Text2 界面化拖拽分析功能,用户只需通过自然语言描述他们的数据分析需求,系统便能自动生成相应的查询条件。


工作原理


  • 自然语言处理:系统首先利用自然语言处理技术理解用户的查询请求。例如,用户可能会问:“腾讯视频的某一个剧集的播放次数是多少?”。


  • 查询条件生成:基于解析的结果,系统生成适用于拖拽式分析工具的查询条件。生成的查询条件会被自动填充到拖拽式分析工具的工作区内,这样用户可以直接看到并操作这些条件。


  • 用户微调与反馈:用户可以在拖拽式分析工具中对自动生成的查询条件进行调整,包括修改指标、维度或添加/删除过滤条件等。用户的每次微调都会作为新的训练样本反馈给模型,帮助模型不断学习和改进。随着时间的推移,模型能够更精确地理解用户的意图,并生成更加准确的查询条件,最终达到非常高的准确率目标。



3. AI 出图能力展示


在数据分析和可视化领域,将分析结果转化为直观的图表是一个常见需求。传统的可视化工具需要用户手动配置图表的多个方面,如选择图表类型、设置坐标轴、添加图例等。这一过程不仅耗时,而且需要一定的专业知识和技能。为了简化这一过程,我们开发了 AI 出图功能,它能够自动将数据结果转换为图表,并优化图表的配置。


工作原理


AI 出图功能通过以下步骤自动化生成图表:


  • 数据字段分类与命名:AI 自动识别数据结果中的字段,将其分类为维度或指标。为字段生成易于理解的显示名,提高图表的可读性。


  • 可视化组件选择:基于数据特性和用户的分析需求,AI 模型会推荐最适合的可视化组件,例如折线图、柱状图、饼图等。


  • 图表配置与优化:AI 自动配置图表的辅助线、异常点标记等,无需用户手动设置。根据上述配置自动生成图表,提供直观的可视化结果。


  • 结果解读:结合数据解读能力,对图表中的异常点进行标注,提供额外的洞察。



4. AI 数据解读


在数据分析过程中,除了生成 SQL 查询、拖拽分析的查询条件以及 AI 出图能力外,系统还提供了数据解读功能,包括描述性统计、异常检测、趋势预测和归因分析等。目前,这些高级分析能力以单点形式提供给用户,用户需要主动触发相应的分析任务。未来,计划通过大模型自动完成这些高级分析,并将结论以可读性更强并且更加完整的形式呈现给用户,从而提供更多的启发和洞察力。


工作原理


AI 数据解读功能的工作流程如下:


(1)数据解读功能


  • 描述性统计:对数据进行基本的统计分析,如均值、中位数、标准差等。


  • 异常检测:识别数据中的异常值或异常模式,帮助用户发现潜在的问题。


  • 趋势预测:基于历史数据预测未来的趋势,支持业务决策。


  • 归因分析:分析影响结果的关键因素,帮助用户理解数据背后的原因。


(2)自动化与总结


  • 自动化分析:通过大模型自动执行上述高级分析任务,减少用户的操作负担。


  • 结论总结:大模型会将分析结果进行总结,生成易于理解的报告或结论。


  • 启发性输出:系统不仅提供数据结论,还会给出具有启发性的建议和洞察,帮助用户更好地理解数据。


(3)启发而非直接干预


  • 不直接干预业务决策:尽管系统能够生成高级分析结论,但不会直接应用于业务决策,而更多是作为启发性的参考。


  • 用户自主决策:用户可以根据系统的建议进行进一步的分析和讨论,最终做出业务决策。


  • 避免幻觉和其他问题:考虑到大模型可能存在的幻觉或其他问题,系统不会直接干预具体的业务操作,如营销系统的投放策略。



5. 更智能的产品形态


在数据分析领域,除了提供单点能力(如生成 SQL 查询、拖拽分析条件、AI 出图等)与 BI 工具的结合外,更智能的产品形态应当能够引导用户完成整个数据作业流程。这种形态不仅能够降低用户的学习成本,还能通过推荐系统减少用户的操作步骤,从而提升用户体验和效率。


工作原理


(1)智能推荐系统


  • 基于规则和算法的信息:系统根据预设的规则和算法信息,向用户提供分析建议。这些推荐可以帮助那些数据基础较弱或缺乏分析思路的用户。


  • 业务历史分析:通过对平台上的历史分析进行分析,系统可以根据时间戳等信息推导出业务问题的分析流程。这样,在用户完成一次分析后,系统可以推荐下一步应进行的其他分析,帮助用户形成具体的业务结论或获得启发。


(2)全流程引导


  • 引入数据阶段:在数据导入过程中,系统可以推荐合适的数据源和数据清洗方法。


  • 描述数据阶段:在数据探索阶段,系统可以自动进行描述性统计,并推荐进一步的分析方向。


  • 可视化阶段:在数据可视化过程中,系统可以推荐合适的图表类型和配置选项,以优化展示效果。



6. 独立产品可能的产品形态


在数据分析领域,业界一直在期待一种能够独立运行并与多种 AI 能力结合的产品,以帮助用户完成复杂的数据分析任务。传统的对话式或聊天形态的工具虽然在某些场景下有效,但在处理大体量业务时存在局限性。因此,需要探索新的产品形态来更好地满足用户需求。


产品形态探讨


(1)分析命题画布


  • 多步分析流程:用户的分析思路通常是多步骤的,一个复杂的业务问题可能需要多个数据分析任务才能完成。分析命题画布可以很好地承载这种多步骤、分支逻辑的分析流程。


  • 可视化与可操作性:画布形式允许用户直观地看到整个分析流程,并且可以在每一步中进行干预和调优。这种形式不仅提高了用户的参与度,还确保了每一步的结果更加准确,最终达到预期目标。


(2)上下游多步串联


  • 逐步引导与优化:通过上下游多步串联的形式,用户可以在每个环节中对结论进行调整和优化,从而使得下一步的操作更加精准和面向结果。


  • 灵活性与控制:用户能够在整个分析过程中保持高度的灵活性和控制力,确保分析过程符合实际业务需求。



7. ABI 产品架构


在构建 ABI 产品时,我们面临的一个主要挑战是如何确保产品能够适应公司内部多个数据平台的需求。这些平台对 AI 能力的需求虽有共通之处,但也存在特定差异。为了有效整合 AI 能力,我们开发了一套开放式架构,旨在简化 AI 能力的接入和使用。


开放式架构设计


开放式架构的核心目标是将 AI 能力以模块化的方式集成到不同的数据平台中。这种设计允许各平台根据自身需求灵活地调用 AI 工程或者服务,如数据平台可以选择直接工程化接入 OlaChat 产品,或者将 text2SQL、test2Python 以及代码纠错、优化等 agent 能力接入到自身数据平台。



04


问答环节


Q1:目前用什么指标和标准来衡量 AI 数据产品做得好?


A1:目前我们主要会观测以下维度:


  • 使用量:这是最直接的衡量体系,通过统计产品的使用频率和规模来评估其受欢迎程度;


  • 留存率:留存率是衡量产品长期价值的关键指标。如果用户在一段时间后仍然继续使用产品,这表明产品确实解决了用户的问题,提供了实际帮助。高留存率意味着产品能够持续满足用户需求。


  • 用户数量和使用次数的增长:随着 AI 能力的逐步落地,用户数量和产品的使用次数也在增长,这表明产品正在吸引新用户并增加现有用户的参与度。


  • 准确率的持续优化:对于准确率有问题的场景,如 SQL 纠错等高频使用场景,通过日常分析用户查询和结果准确性,进行调优,以提升产品性能。


Q2:智能取数的准确率是多少?多表查询和单表查询的准确率区别大吗?


A2:Text2SQL 和 Text2 拖拽分析查询条件的准确率确实是衡量 AI 数据产品体验的重要衡量指标,但对于数据和元数据体量都极大的企业,苛求两者的绝对准确率不应该是产品主要攻关的方向,这在我们做纯对话形态的过程中已经有一些基本认知。


目前我们把准确率划分为了几个等级:正确、基本争取(SQL 框架正确、拖拽分析查询框架正确)、错误等几个等级,其中正确占比约 75%,正确+基本正确合计占比约 85%,是有一个相对比较不错的表现的。


多表相对单表天然复杂度更高,准确率会有所下滑,但目前观察差距在可控范围内。


Q3:能否与 power BI 共用或与公司自开发的 BI 结合使用吗?


A3:这个问题在前面的材料中其实已经介绍到,我们已经考虑到 Olachat 的 AI 能力和业界其他产品或公司内部其他产品的结合,因此在工程和 agent 设计过程中,已经采用了开放式架构。在这套框架下,可以以工程化的或 API 形式将 AI 能力接入到各类数据平台中。除此之外还有一个需要考虑的点在于数据平台中的数据和元数据,这部分也需要和 Olachat 完成对接。只要完成上述两部分的对接,Olachat 就能够处理来自不同平台的数据问题。


综上所述,与 Power BI 的共用或与公司自开发的BI 结合使用不仅是可能的,而且在技术上已经具备了实现的基础。


以上就是本次分享的内容,谢谢大家。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询