微信扫码
与创始人交个朋友
我要投稿
| 01 为什么不看好
背景:我在前司主要做数据研发平台、 OLAP 引擎和 BI 可视化相关的工作,一直被海量数据的查询性能所困扰,始终无法在有限资源下突破。
因此,一定程度上导致我对大数据的实时洞察(P99.9,10秒内返回结果),这一命题产生了技术阴影。
在回答关于大模型和数据洞察的结合场景时,我脑海里的判断主要是以下三个点:
1. 大模型存在幻觉,而数据洞察要求准确性
由于大模型本身的底层运行模式就是概率,通过巨额参数模型训练后,看似出现了知识泛化,表现了一定的智能现象,但是,它的运行模式决定了它本身存在偏离事实和捏造的问题,常规的问答造成的影响毕竟有限。
但在数据洞察方面,则要求绝对的准确性。(当然,后期针对大模型的这一缺陷,也衍生出了一些方案,比如 RAG)。
2. 自然语言无法直接和数据引擎交互
新事物,往往不能完全脱离旧事物而闭环运行,特别是初期的时候。
目前,SQL 就是和数据引擎打交道的非官方语言,即使只被少数人掌握,但是,新老数据库和数据框架,基本都兼容 SQL,各类数据应用也是通过 SQL 来和底层引擎交互的。
因此,大模型需要做两件事情,才能完成和数据库/计算引擎的交互
理解自然语言含义
这一步其实对于大模型来说比较简单,这也是它擅长的地方,特别是 GTP3.5 模型出来之后,我相信每个人,在第一次和 ChatGPT 交流的时候,都会感到震惊,也为之激动。
将其翻译成 SQL
这就很难了,即使已经准确的理解了自然语言,但是如何将他翻译成底层引擎可执行的 SQL ,这就需要通过模型精调,让其知道业务底层表结构的事情。
并不是自然语言描述,需要查询城市的销售额分布,底层的字段用的就是 city,你可能用的是 ds_city。
假设已经了解了业务库表的元数据信息,将自然语言转换成 SQL依然不会太顺利,毕竟大模型还是有幻觉。
更为重要的是,大模型生成的 SQL 是否准确?
这一步是需要人为判断和审核的,这就要求具备基本的 SQL 判断能力,这一步就直接把人卡死了,毕竟大家想用自然语言查询就是不会 SQL,也不想学习。
3. 大数据查询性能无法满足即席沟通的需求
这一点对我来说可谓切肤之痛,我的经历直接让我对海量数据的秒级返回产生了怀疑。
毕竟我和团队尝试了很多方法,不管是缓存、预计算、虚拟化、加载到更好性能的引擎等等,对于整体的性能提升都收效甚微。
另一方面,通过大模型对话的交互方式,人的预期被无限拉近到实时反馈。
不管是问答,还是文生图,甚至后来的文生视频,大家都是希望可以尽可能快的得到反馈。
但数据计算受限于计算引擎和资源的限制,性能一直是个瓶颈,且短时间内无法突破,不管是使用MPP 数据库,还是使用向量化技术,依然无法满足海量数据多维分析场景的性能需求。
以上三点是我当时的判断和思考,一年之后再回过头看,其实,思考是有漏洞的,下面是我的复盘和最新思考。
| 02 被过去限制了
“人的眼睛长的前面,有莫大的好处,时刻提醒我们往前看。”
这当然是一句网络鸡汤语,不过,很多时候也是对我们自身的一个提醒,没什么不好。
一年之后,以 OpenAI 为首的科技公司,通过不断地迭代,让大模型更智能,反应也更快,甚至出现了多模态大模型。
也衍生出了很多新的应用场景,比如文生视频、智能外呼、智能客服、ChatBI 等。
回过头看,我一年前判断的大方向并没有问题,而且依然站得住脚。
但是,依然存在局限和不足,下面是我的反思和最新的感受。
1. 低估了大模型的演进速度
我第一次接触大模型是在 23 年的3 月份,那时候,最厉害的大模型还是 GPT-3.5,现在已经有了 GPT-4.0 和 GPT-4o,据网传今年 OpenAI 会发布 GPT-5.0。
国内包含阿里、百度、腾讯、字节在内的大厂,也都纷纷发布了自己的大模型。
除了大模型技术的发展外,减少大模型幻觉,实现私有知识库和大模型能力结合的技术也在快速发展,比如 RAG (检索增强生成)技术,也出现了一些大模型应用开发平台,比如 dify。
这使得大模型可以更好的理解和应用业务知识,帮助其减少幻觉。
2. 多数企业数据量都在 TB 级及以下
我之前忽略了一个事实:腾讯可能是全球 TOP3 的数据公司,它不是常规,它是特殊的个例。
在腾讯单个 SQL 扫描的数据量很大,但,全球也没有几家公司有腾讯的数量级。
普通中型企业的单个查询,可能只需要对几十 TB,甚至几百 GB 的数据做计算,对于他们来说,性能本身并不是无法逾越的点。
特别是目前一些 MPP 数据库,加上支持向量化技术,对于多数企业来说,基本可以秒级返回查询结果。
反思总结:技术总在不断发展,且速度超过预期;不要把常规和个例搞反了,搞清楚谁是 2 谁是 8。
| 03 小结
ChatBI 是目前大模型和数据洞察场景结合的具象产品化形态,目前,网易有数、帆软,以及瓴羊都发布了自己的商业化产品。
对于中小企业来说,通过自然语言即可探索和洞察企业数据,是一件很酷,也很性感的事情,虽然,它的具体价值短时间内还无法衡量。
不过,可以肯定的是,它无形中,推进了“数据民主化”的发展进程。
未来的企业,可能不会单独设立数据分析师或业务分析师,通过ChatBI 类产品,每个企业人员都可以基于企业数据,来还原企业发展事实,洞察业务变化,并借此提起做好工作规划。
以前有一句口号叫“人人都是产品经理”,那么未来,“人人都是业务分析师”大概率会成为现实。
虽然,很多人目前把 ChatBI 看做一个“玩具”,距离成为真正的商业化软件还比较远,但未来可期吧。
(正文完)
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-05-28
2024-04-26
2024-08-13
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01