我要投稿

数据领域难题：大模型的切入点

发布日期：2024-09-03 05:30:22 浏览次数： 1613

今年往昔

回想起90年代，老爸带回家的第一台电脑，当时我才小学四年级。起初，我们都对这台电脑的用途一知半解，仅仅是沉迷于DOS下的“tt”打字游戏，每天玩得不亦乐乎。

老爸使用电脑的频率并不高，甚至他用来做过什么我都没什么印象。至于编程，家里更是谁也不懂。我熟练打字之后，不知怎么滴就学会了DOS基本命令，然后开始尝试各种存放在3.5寸软盘上的小玩意，探寻有趣的内容。

但在那个时间点可以想到（或者看到）未来的那些人，现在都成就了什么？这里已无须赘述。

进入大模型时代，虽然许多人开始使用这些技术，但似乎还没完全明白如何充分利用它们，大多数也仅限于提高工作效率。

过去，编写软件是一门技艺，不是每个人都能掌握。如今，借助大模型，几乎人人都能开发软件。

用户界面（UI）的调整变得简单快捷。可以想象，所有的输入界面将被简洁的多模态输入（文本、语音、图像）所替代，而展示界面则变得高度定制化且可实时变更。

行业应用也经历了转变。以往需要复杂的交互才能完成的任务，现在仅需简单几轮对话即可。学习使用单一工具的成本大大降低，你甚至可以借助大模型与RPA相结合来快速掌握新工具。

虽然AI的准确性尚未达到让人类完全放心的程度，人类依旧是最终的决策者。但若有一天AI变得足够可靠了呢？通过前100乃至1000次的准确无误，难道不会让你有一次想要放手不管么？

而当想象到这样的未来，回到现实之后，我们应该做什么？

除了超级助理，还是什么？

GPT诞生一年以来，除了每天FOMO之外，思考最多的还是：“我到底想要用GPT来干嘛？”

或许可以从这样的角度入手：

个人专长关键词 → GPT总结分析你所擅长的领域
寻找命题 → 请列举诸如XXX领域鲜为人知的十大难题
分析难题 → 你是XXX专家，请分析XXX难题的实现路径，从两个维度进行分析，分别是AI的胜任程度以及解决难题所需的人力资源大小，并分别对两个维度进行打分
整理难题 → 循环1-3步分析完之后再与GPT进一步讨论可行思路

GPT给我的分析结果可归结为数据领域，应用设计及开发领域，编程教育领域，自媒体，行业及企业分析，管理。

我再问：干大数据的难题有哪些？

GPT回答：大数据处理与存储、数据质量与清洗、复杂数据集成、实时数据处理、高级分析算法的开发与优化、数据隐私与安全、数据可视化与解释、缺乏专业技能、算法的可解释性与透明度、业务与数据科学的对接。

其中大部分难题在于人力成本高，而非技术难。比如处理存储、质量清洗、集成、实时和分析优化这些，都需要将数据进行来回打磨，才能把链路优化得足够好。私隐和可解释性这两个属于新型领域，还不太成熟。可视化的难题更多是缺乏创意。最后，剩下业务与数据对接，更多应归为项目管理难题，而非技术难题。

大模型时代，个人对于获取并存储会有越来越大的需求量，因此需要更好用的个人大数据平台，或是一个小型、单体的本地系统。设想个人大数据平台需要支持什么？你会想要存储哪些数据用于训练你的私家大模型？

如果按照传统大数据平台架构，可能需要类似HDFS这样的分布式文件系统（搭配上Hive），还要支持全文检索es，用图数据库来建立各种关系，配上Spark计算引擎来运行各种脚本，又因不同的数据库，擅长处理不一样的数据结构，所以可能还需要Hbase、MongoDB、PostgreSQL……等等。，你因此需要花费大量时间精力让这些五花八门的数据库协同工作。

然而，站在个人日常使用需求来说，你的输入大多数是文字、图片、音频、视频时，或许应该考虑利用向量数据库来一统江湖。

大数据如何服务于个人

我一直怀疑，大数据所延伸出来的各种推荐服务是否真正地惠及个人。虽说按照科斯定律，数据似乎总是为能产生最大利益的一方服务，而不是普通个体，但这也同时导致了数据最终服务的也是最大利益体。因此在大数据领域，GPT的回答往往假定为企业（B端）场景。当你设想已有某个行业或领域中的数据，业务指标，乃至针对指标的各种算法和计算结果。那么AI，尤其是大模型，主要在解读这些分析结果上发挥作用。比如你可以通过获取公开数据，并分析不同行业的数据可用性和发展前景。然后，从数据科学的角度，收集成熟的算法，将它们整合成算子平台，方便快速得出计算结果。最终，利用大模型提供解读。

做数据的难点一直是只能为某行业或者某业务赋能，但作为”乙方“的服务是否能卖出去，关键因素通常不在于技术。因此还需要找到相对不那么依赖“赋能”服务的应用。相比之下，个性化推荐厉害之处在于构建了一个场，让所有人在其中交互，场主制定了场内的游戏规则，比如内容平台、社交平台和电商平台。然而这都已被各大厂占领，破局点可不在同场竞技。关键是“细分”以及“场景”，细分意味着你对某个业务领域有非常细致而又独特的理解，场景意味着你不但细致，还能从中跳出来看到bigger picture，设想出未来的交互，而不是只管解决现在遇到的痛点。

真正的难题在于什么？是那些原本无法降下来的成本，现在借助AI有了可以快速打通的场景。

比如大数据选址产品，数据成本，算法成本高居不下。花费一两百万购买的产品，实际能辅助决策的点少之又少，甚至可能比传统人力省不了几个钱。所谓的科技赋能实际上没有实际作用，而只能达成当前预算执行目标。

说白了，B端真正的难题在于，数字化/信息化的大目标总是绕不开降本增效，那首当其冲的就必然是削减人力，用更少的资源做更多的事，进而从人力花费最多的地方着手。但进入大模型时代之后，这一切前提都将推倒重来，或许我们可以找到既不需要削减人力，同时又能产生新价值的办法。

GPT该如何助力数据领域？

此前某公众号发布了一份《全行业数据指标系统手册》并且只卖不送，号称：“涉及15个行业，24个场景，1000多个指标，内容之详细，质量之高，独属此一份。”，但从其宣传手法上看来，免费的肯定是最贵的，这未必是一份很有指导意义的手册，还不如设计prompting套用相同的框架来给你生成一份专属于你行业的指标体系手册。

为什么各行各业都需要指标体系？

指标体系是理解和评估业务表现的关键。它们帮助企业监控进展，识别改进领域，以及做出基于数据的决策。在GPT的帮助下，我们可以更迅速地定义这些指标，使其更加贴合行业特点和企业需求。

从GPT赋能百行百业的角度来看，除了指标体系制定，切入点还有哪些？

如前文说到的“数据的有效解读和应用”也算一个：这涉及到利用GPT对海量数据进行分析，提炼出有价值的信息，并将这些信息转化为可操作的洞察。

因此在工具侧，GPT最先介入的应是：

梳理百行百业指标体系（乃至挖掘出新的指标）
面向不同人群进行数据解读（EDA结果、分析结果、图形结果……）
加速Data Team的工作（本体建模、生成逻辑/物理模型、编写其他数据脚本……）

但是要注意，数据这一行本就从数字化而来，其数字化/智能化程度相对较高，也就意味着提升空间较有限，提升难度也略大。这也是为什么在这段时间以来，总是看到很多“看起来很牛”的应用，但实际上手又觉得“不过如此”。

所以，我们要以数据+X为基础，往上多找一个AI+X。在AI对X进行改造的同时，利用数据为其做出更多价值。因此，数据工具的进化依然非常必要。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

全面对比dify、coze、streamlit、chainlit

2024-04-26

“大数据+”医疗

2024-04-11

太强了！10大开源大模型！

2024-05-06

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

2024-06-12

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

大模型训练及推理【硬件选型指南】及 GPU 通识

2024-05-09

Ollama 本地运行大模型(LLM)完全指南

2024-07-25

HealthGPT：华工数字孪生人实验室发布主动健康大模型基座

2023-07-01

大家都在问

OpenAI o1的架构流程已被Claude破解了？

2024-09-21

RAG检索失败率降低49%？Anthropic-Contextual-RAG方案解析-兼看老刘的课堂三部曲

2024-09-21

Multi-Agent架构-CrewAI详解

2024-09-21

聊聊RLHF的奖励模型——上海人工智能书生大模型的RW实践

2024-09-21

文档大模型，能否真正解决非结构化数据难题

2024-09-21

全球首发：第二代 RAG 系统 auto-coder.rag 相比市面主流RAG系统 20%-60% 效果提升

2024-09-21

从 Data 到 Data + AI，必然之路还是盲目跟风？

2024-09-21

SFR-RAG：高效精简的检索增强生成模型

2024-09-21

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

今年往昔

除了超级助理，还是什么？

大数据如何服务于个人

GPT该如何助力数据领域？

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

全面对比dify、coze、streamlit、chainlit

“大数据+”医疗

太强了！10大开源大模型！

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

大模型训练及推理【硬件选型指南】及 GPU 通识

Ollama 本地运行大模型(LLM)完全指南

HealthGPT：华工数字孪生人实验室发布主动健康大模型基座

大家都在问

OpenAI o1的架构流程已被Claude破解了？

RAG检索失败率降低49%？Anthropic-Contextual-RAG方案解析-兼看老刘的课堂三部曲

Multi-Agent架构-CrewAI详解

聊聊RLHF的奖励模型——上海人工智能书生大模型的RW实践

文档大模型，能否真正解决非结构化数据难题

全球首发：第二代 RAG 系统 auto-coder.rag 相比市面主流RAG系统 20%-60% 效果提升

从 Data 到 Data + AI，必然之路还是盲目跟风？

SFR-RAG：高效精简的检索增强生成模型

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

今年往昔

除了超级助理，还是什么？

大数据如何服务于个人

GPT该如何助力数据领域？

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

全面对比dify、coze、streamlit、chainlit

“大数据+”医疗

太强了！10​大开源大模型！

Qwen2 阿里最强开源大模型（Qwen2-7B）本地部署、API调用和WebUI对话机器人

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

大模型训练及推理【硬件选型指南】及 GPU 通识

Ollama 本地运行大模型(LLM)完全指南

HealthGPT：华工数字孪生人实验室发布主动健康大模型基座

大家都在问

OpenAI o1的架构流程已被Claude破解了？

RAG检索失败率降低49%？Anthropic-Contextual-RAG方案解析-兼看老刘的课堂三部曲

Multi-Agent架构-CrewAI详解

聊聊RLHF的奖励模型——上海人工智能书生大模型的RW实践

文档大模型，能否真正解决非结构化数据难题

全球首发：第二代 RAG 系统 auto-coder.rag 相比市面主流RAG系统 20%-60% 效果提升

从 Data 到 Data + AI，必然之路还是盲目跟风？

SFR-RAG：高效精简的检索增强生成模型

热门标签

太强了！10大开源大模型！