我要投稿

P10 从腾讯离职，总经理问我如何看待大模型和数据洞察分析，我的回答让我错失 offer

发布日期：2024-08-02 19:39:26 浏览次数： 1921 作者：唐晨说数

今天的文章，我们聊一下：大模型与数据洞察。

以下对话是我23 年初，和某大厂数据平台部门总经理的一次面试对话。

“ChatGPT 用了没？”

“用了，很惊讶它对自然语言的理解能力，且支持记忆。”

“是的，关于大模型技术，在数据分析洞察场景的发展前景，持什么态度？是否看好”

“短中期不看好，长期看好”

最终，我失去了 offer~~

本文针对当时的判断逻辑进行说明。额外，1 年之后，基于现状做一些反思和补充。

| 01 为什么不看好

背景：我在前司主要做数据研发平台、 OLAP 引擎和 BI 可视化相关的工作，一直被海量数据的查询性能所困扰，始终无法在有限资源下突破。

因此，一定程度上导致我对大数据的实时洞察（P99.9，10秒内返回结果），这一命题产生了技术阴影。

在回答关于大模型和数据洞察的结合场景时，我脑海里的判断主要是以下三个点：

1. 大模型存在幻觉，而数据洞察要求准确性

由于大模型本身的底层运行模式就是概率，通过巨额参数模型训练后，看似出现了知识泛化，表现了一定的智能现象，但是，它的运行模式决定了它本身存在偏离事实和捏造的问题，常规的问答造成的影响毕竟有限。

但在数据洞察方面，则要求绝对的准确性。（当然，后期针对大模型的这一缺陷，也衍生出了一些方案，比如 RAG）。

2. 自然语言无法直接和数据引擎交互

新事物，往往不能完全脱离旧事物而闭环运行，特别是初期的时候。

目前，SQL 就是和数据引擎打交道的非官方语言，即使只被少数人掌握，但是，新老数据库和数据框架，基本都兼容 SQL，各类数据应用也是通过 SQL 来和底层引擎交互的。

因此，大模型需要做两件事情，才能完成和数据库/计算引擎的交互

理解自然语言含义

这一步其实对于大模型来说比较简单，这也是它擅长的地方，特别是 GTP3.5 模型出来之后，我相信每个人，在第一次和 ChatGPT 交流的时候，都会感到震惊，也为之激动。

将其翻译成 SQL

这就很难了，即使已经准确的理解了自然语言，但是如何将他翻译成底层引擎可执行的 SQL ，这就需要通过模型精调，让其知道业务底层表结构的事情。

并不是自然语言描述，需要查询城市的销售额分布，底层的字段用的就是 city，你可能用的是 ds_city。

假设已经了解了业务库表的元数据信息，将自然语言转换成 SQL依然不会太顺利，毕竟大模型还是有幻觉。

更为重要的是，大模型生成的 SQL 是否准确？

这一步是需要人为判断和审核的，这就要求具备基本的 SQL 判断能力，这一步就直接把人卡死了，毕竟大家想用自然语言查询就是不会 SQL，也不想学习。

3. 大数据查询性能无法满足即席沟通的需求

这一点对我来说可谓切肤之痛，我的经历直接让我对海量数据的秒级返回产生了怀疑。

毕竟我和团队尝试了很多方法，不管是缓存、预计算、虚拟化、加载到更好性能的引擎等等，对于整体的性能提升都收效甚微。

另一方面，通过大模型对话的交互方式，人的预期被无限拉近到实时反馈。

不管是问答，还是文生图，甚至后来的文生视频，大家都是希望可以尽可能快的得到反馈。

但数据计算受限于计算引擎和资源的限制，性能一直是个瓶颈，且短时间内无法突破，不管是使用MPP 数据库，还是使用向量化技术，依然无法满足海量数据多维分析场景的性能需求。

以上三点是我当时的判断和思考，一年之后再回过头看，其实，思考是有漏洞的，下面是我的复盘和最新思考。

| 02 被过去限制了

“人的眼睛长的前面，有莫大的好处，时刻提醒我们往前看。”

这当然是一句网络鸡汤语，不过，很多时候也是对我们自身的一个提醒，没什么不好。

一年之后，以 OpenAI 为首的科技公司，通过不断地迭代，让大模型更智能，反应也更快，甚至出现了多模态大模型。

也衍生出了很多新的应用场景，比如文生视频、智能外呼、智能客服、ChatBI 等。

回过头看，我一年前判断的大方向并没有问题，而且依然站得住脚。

但是，依然存在局限和不足，下面是我的反思和最新的感受。

1. 低估了大模型的演进速度

我第一次接触大模型是在 23 年的3 月份，那时候，最厉害的大模型还是 GPT-3.5，现在已经有了 GPT-4.0 和 GPT-4o，据网传今年 OpenAI 会发布 GPT-5.0。

国内包含阿里、百度、腾讯、字节在内的大厂，也都纷纷发布了自己的大模型。

除了大模型技术的发展外，减少大模型幻觉，实现私有知识库和大模型能力结合的技术也在快速发展，比如 RAG （检索增强生成）技术，也出现了一些大模型应用开发平台，比如 dify。

这使得大模型可以更好的理解和应用业务知识，帮助其减少幻觉。

2. 多数企业数据量都在 TB 级及以下

我之前忽略了一个事实：腾讯可能是全球 TOP3 的数据公司，它不是常规，它是特殊的个例。

在腾讯单个 SQL 扫描的数据量很大，但，全球也没有几家公司有腾讯的数量级。

普通中型企业的单个查询，可能只需要对几十 TB，甚至几百 GB 的数据做计算，对于他们来说，性能本身并不是无法逾越的点。

特别是目前一些 MPP 数据库，加上支持向量化技术，对于多数企业来说，基本可以秒级返回查询结果。

反思总结：技术总在不断发展，且速度超过预期；不要把常规和个例搞反了，搞清楚谁是 2 谁是 8。

| 03 小结

ChatBI 是目前大模型和数据洞察场景结合的具象产品化形态，目前，网易有数、帆软，以及瓴羊都发布了自己的商业化产品。

对于中小企业来说，通过自然语言即可探索和洞察企业数据，是一件很酷，也很性感的事情，虽然，它的具体价值短时间内还无法衡量。

不过，可以肯定的是，它无形中，推进了“数据民主化”的发展进程。

未来的企业，可能不会单独设立数据分析师或业务分析师，通过ChatBI 类产品，每个企业人员都可以基于企业数据，来还原企业发展事实，洞察业务变化，并借此提起做好工作规划。

以前有一句口号叫“人人都是产品经理”，那么未来，“人人都是业务分析师”大概率会成为现实。

虽然，很多人目前把 ChatBI 看做一个“玩具”，距离成为真正的商业化软件还比较远，但未来可期吧。

（正文完）

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-25

OpenAI 白送 200 美元的深度研究功能？实测后发现这个「阉割版」不如不用

2025-04-25

为什么一定要做Agent智能体？

2025-04-25

哇！首个MCPBench来了，MCP竟然不比Function Calls更有优势？ | 最新

2025-04-25

医疗大模型案例分析（一）：Google Med-PaLM

2025-04-25

vLLM+Qwen-32B+Open Web UI构建本地私有大模型

2025-04-25

AI产品经理思考MCP（3）：MCP的未来可能

2025-04-25

AI产品经理思考MCP协议（2）：标准化的必要性

2025-04-25

AI产品经理思考MCP协议（1）：预见MCP——我的“万能库”与标准化之路

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB