AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


P10 从腾讯离职,总经理问我如何看待大模型和数据洞察分析,我的回答让我错失 offer
发布日期:2024-08-02 19:39:26 浏览次数: 1659 来源:唐晨说数



今天的文章,我们聊一下:大模型与数据洞察。
以下对话是我23 年初,和某大厂数据平台部门总经理的一次面试对话。
“ChatGPT 用了没?”
“用了,很惊讶它对自然语言的理解能力,且支持记忆。”
“是的,关于大模型技术,在数据分析洞察场景的发展前景,持什么态度?是否看好”
“短中期不看好,长期看好”
最终,我失去了 offer~~
本文针对当时的判断逻辑进行说明。额外,1 年之后,基于现状做一些反思和补充。


| 01 为什么不看好

背景:我在前司主要做数据研发平台、 OLAP 引擎和 BI 可视化相关的工作,一直被海量数据的查询性能所困扰,始终无法在有限资源下突破。

因此,一定程度上导致我对大数据的实时洞察(P99.9,10秒内返回结果),这一命题产生了技术阴影。

在回答关于大模型和数据洞察的结合场景时,我脑海里的判断主要是以下三个点:

1. 大模型存在幻觉,而数据洞察要求准确性

由于大模型本身的底层运行模式就是概率,通过巨额参数模型训练后,看似出现了知识泛化,表现了一定的智能现象,但是,它的运行模式决定了它本身存在偏离事实和捏造的问题,常规的问答造成的影响毕竟有限。

但在数据洞察方面,则要求绝对的准确性。(当然,后期针对大模型的这一缺陷,也衍生出了一些方案,比如 RAG)。

2. 自然语言无法直接和数据引擎交互

新事物,往往不能完全脱离旧事物而闭环运行,特别是初期的时候。

目前,SQL 就是和数据引擎打交道的非官方语言,即使只被少数人掌握,但是,新老数据库和数据框架,基本都兼容 SQL,各类数据应用也是通过 SQL 来和底层引擎交互的。

因此,大模型需要做两件事情,才能完成和数据库/计算引擎的交互

  •  理解自然语言含义

这一步其实对于大模型来说比较简单,这也是它擅长的地方,特别是 GTP3.5 模型出来之后,我相信每个人,在第一次和 ChatGPT 交流的时候,都会感到震惊,也为之激动。

  • 将其翻译成 SQL

这就很难了,即使已经准确的理解了自然语言,但是如何将他翻译成底层引擎可执行的 SQL ,这就需要通过模型精调,让其知道业务底层表结构的事情。

并不是自然语言描述,需要查询城市的销售额分布,底层的字段用的就是 city,你可能用的是 ds_city。

假设已经了解了业务库表的元数据信息,将自然语言转换成 SQL依然不会太顺利,毕竟大模型还是有幻觉。

更为重要的是,大模型生成的 SQL 是否准确?

这一步是需要人为判断和审核的,这就要求具备基本的 SQL 判断能力,这一步就直接把人卡死了,毕竟大家想用自然语言查询就是不会 SQL,也不想学习。

3. 大数据查询性能无法满足即席沟通的需求

 这一点对我来说可谓切肤之痛,我的经历直接让我对海量数据的秒级返回产生了怀疑。

毕竟我和团队尝试了很多方法,不管是缓存、预计算、虚拟化、加载到更好性能的引擎等等,对于整体的性能提升都收效甚微。

另一方面,通过大模型对话的交互方式,人的预期被无限拉近到实时反馈。

不管是问答,还是文生图,甚至后来的文生视频,大家都是希望可以尽可能快的得到反馈。

但数据计算受限于计算引擎和资源的限制,性能一直是个瓶颈,且短时间内无法突破,不管是使用MPP 数据库,还是使用向量化技术,依然无法满足海量数据多维分析场景的性能需求。

以上三点是我当时的判断和思考,一年之后再回过头看,其实,思考是有漏洞的,下面是我的复盘和最新思考。

| 02 被过去限制了

“人的眼睛长的前面,有莫大的好处,时刻提醒我们往前看。”

这当然是一句网络鸡汤语,不过,很多时候也是对我们自身的一个提醒,没什么不好。

一年之后,以 OpenAI 为首的科技公司,通过不断地迭代,让大模型更智能,反应也更快,甚至出现了多模态大模型。

也衍生出了很多新的应用场景,比如文生视频、智能外呼、智能客服、ChatBI 等。

回过头看,我一年前判断的大方向并没有问题,而且依然站得住脚。

但是,依然存在局限和不足,下面是我的反思和最新的感受。

1. 低估了大模型的演进速度

我第一次接触大模型是在 23 年的3 月份,那时候,最厉害的大模型还是 GPT-3.5,现在已经有了 GPT-4.0 和 GPT-4o,据网传今年 OpenAI 会发布 GPT-5.0。

国内包含阿里、百度、腾讯、字节在内的大厂,也都纷纷发布了自己的大模型。

除了大模型技术的发展外,减少大模型幻觉,实现私有知识库和大模型能力结合的技术也在快速发展,比如 RAG (检索增强生成)技术,也出现了一些大模型应用开发平台,比如 dify。

这使得大模型可以更好的理解和应用业务知识,帮助其减少幻觉。

2. 多数企业数据量都在 TB 级及以下

我之前忽略了一个事实:腾讯可能是全球 TOP3 的数据公司,它不是常规,它是特殊的个例。

在腾讯单个 SQL 扫描的数据量很大,但,全球也没有几家公司有腾讯的数量级。

普通中型企业的单个查询,可能只需要对几十 TB,甚至几百 GB 的数据做计算,对于他们来说,性能本身并不是无法逾越的点。

特别是目前一些 MPP 数据库,加上支持向量化技术,对于多数企业来说,基本可以秒级返回查询结果。

反思总结:技术总在不断发展,且速度超过预期;不要把常规和个例搞反了,搞清楚谁是 2 谁是 8。


| 03 小结

ChatBI 是目前大模型和数据洞察场景结合的具象产品化形态,目前,网易有数、帆软,以及瓴羊都发布了自己的商业化产品。

对于中小企业来说,通过自然语言即可探索和洞察企业数据,是一件很酷,也很性感的事情,虽然,它的具体价值短时间内还无法衡量。

不过,可以肯定的是,它无形中,推进了“数据民主化”的发展进程。

未来的企业,可能不会单独设立数据分析师或业务分析师,通过ChatBI 类产品,每个企业人员都可以基于企业数据,来还原企业发展事实,洞察业务变化,并借此提起做好工作规划。

以前有一句口号叫“人人都是产品经理”,那么未来,“人人都是业务分析师”大概率会成为现实。

虽然,很多人目前把 ChatBI 看做一个“玩具”,距离成为真正的商业化软件还比较远,但未来可期吧。

(正文完)



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询