AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


数据领域难题:大模型的切入点
发布日期:2024-09-03 05:30:22 浏览次数: 1613


今年往昔

回想起90年代,老爸带回家的第一台电脑,当时我才小学四年级。起初,我们都对这台电脑的用途一知半解,仅仅是沉迷于DOS下的“tt”打字游戏,每天玩得不亦乐乎。

老爸使用电脑的频率并不高,甚至他用来做过什么我都没什么印象。至于编程,家里更是谁也不懂。我熟练打字之后,不知怎么滴就学会了DOS基本命令,然后开始尝试各种存放在3.5寸软盘上的小玩意,探寻有趣的内容。

但在那个时间点可以想到(或者看到)未来的那些人,现在都成就了什么?这里已无须赘述。

进入大模型时代,虽然许多人开始使用这些技术,但似乎还没完全明白如何充分利用它们,大多数也仅限于提高工作效率。

过去,编写软件是一门技艺,不是每个人都能掌握。如今,借助大模型,几乎人人都能开发软件。

用户界面(UI)的调整变得简单快捷。可以想象,所有的输入界面将被简洁的多模态输入(文本、语音、图像)所替代,而展示界面则变得高度定制化且可实时变更。

行业应用也经历了转变。以往需要复杂的交互才能完成的任务,现在仅需简单几轮对话即可。学习使用单一工具的成本大大降低,你甚至可以借助大模型与RPA相结合来快速掌握新工具。

虽然AI的准确性尚未达到让人类完全放心的程度,人类依旧是最终的决策者。但若有一天AI变得足够可靠了呢?通过前100乃至1000次的准确无误,难道不会让你有一次想要放手不管么?

而当想象到这样的未来,回到现实之后,我们应该做什么?



除了超级助理,还是什么?

GPT诞生一年以来,除了每天FOMO之外,思考最多的还是:“我到底想要用GPT来干嘛?”

或许可以从这样的角度入手:

  1. 个人专长关键词 → GPT总结分析你所擅长的领域

  2. 寻找命题 → 请列举诸如XXX领域鲜为人知的十大难题

  3. 分析难题 → 你是XXX专家,请分析XXX难题的实现路径,从两个维度进行分析,分别是AI的胜任程度以及解决难题所需的人力资源大小,并分别对两个维度进行打分

  4. 整理难题 → 循环1-3步分析完之后再与GPT进一步讨论可行思路

GPT给我的分析结果可归结为数据领域,应用设计及开发领域,编程教育领域,自媒体,行业及企业分析,管理。

我再问:干大数据的难题有哪些?

GPT回答:大数据处理与存储、数据质量与清洗、复杂数据集成、实时数据处理、高级分析算法的开发与优化、数据隐私与安全、数据可视化与解释、缺乏专业技能、算法的可解释性与透明度、业务与数据科学的对接。

其中大部分难题在于人力成本高,而非技术难。比如处理存储、质量清洗、集成、实时和分析优化这些,都需要将数据进行来回打磨,才能把链路优化得足够好。私隐和可解释性这两个属于新型领域,还不太成熟。可视化的难题更多是缺乏创意。最后,剩下业务与数据对接,更多应归为项目管理难题,而非技术难题。

大模型时代,个人对于获取并存储会有越来越大的需求量,因此需要更好用的个人大数据平台,或是一个小型、单体的本地系统。设想个人大数据平台需要支持什么?你会想要存储哪些数据用于训练你的私家大模型?

如果按照传统大数据平台架构,可能需要类似HDFS这样的分布式文件系统(搭配上Hive),还要支持全文检索es,用图数据库来建立各种关系,配上Spark计算引擎来运行各种脚本,又因不同的数据库,擅长处理不一样的数据结构,所以可能还需要Hbase、MongoDB、PostgreSQL……等等。,你因此需要花费大量时间精力让这些五花八门的数据库协同工作。

然而,站在个人日常使用需求来说,你的输入大多数是文字、图片、音频、视频时,或许应该考虑利用向量数据库来一统江湖。



大数据如何服务于个人

我一直怀疑,大数据所延伸出来的各种推荐服务是否真正地惠及个人。虽说按照科斯定律,数据似乎总是为能产生最大利益的一方服务,而不是普通个体,但这也同时导致了数据最终服务的也是最大利益体。因此在大数据领域,GPT的回答往往假定为企业(B端)场景。当你设想已有某个行业或领域中的数据,业务指标,乃至针对指标的各种算法和计算结果。那么AI,尤其是大模型,主要在解读这些分析结果上发挥作用。比如你可以通过获取公开数据,并分析不同行业的数据可用性和发展前景。然后,从数据科学的角度,收集成熟的算法,将它们整合成算子平台,方便快速得出计算结果。最终,利用大模型提供解读。

做数据的难点一直是只能为某行业或者某业务赋能,但作为”乙方“的服务是否能卖出去,关键因素通常不在于技术。因此还需要找到相对不那么依赖“赋能”服务的应用。相比之下,个性化推荐厉害之处在于构建了一个场,让所有人在其中交互,场主制定了场内的游戏规则,比如内容平台、社交平台和电商平台。然而这都已被各大厂占领,破局点可不在同场竞技。关键是“细分”以及“场景”,细分意味着你对某个业务领域有非常细致而又独特的理解,场景意味着你不但细致,还能从中跳出来看到bigger picture,设想出未来的交互,而不是只管解决现在遇到的痛点。

真正的难题在于什么?是那些原本无法降下来的成本,现在借助AI有了可以快速打通的场景。

比如大数据选址产品,数据成本,算法成本高居不下。花费一两百万购买的产品,实际能辅助决策的点少之又少,甚至可能比传统人力省不了几个钱。所谓的科技赋能实际上没有实际作用,而只能达成当前预算执行目标。

说白了,B端真正的难题在于,数字化/信息化的大目标总是绕不开降本增效,那首当其冲的就必然是削减人力,用更少的资源做更多的事,进而从人力花费最多的地方着手。但进入大模型时代之后,这一切前提都将推倒重来,或许我们可以找到既不需要削减人力,同时又能产生新价值的办法。



GPT该如何助力数据领域?

此前某公众号发布了一份《全行业数据指标系统手册》并且只卖不送,号称:“涉及15个行业,24个场景,1000多个指标,内容之详细,质量之高,独属此一份。”,但从其宣传手法上看来,免费的肯定是最贵的,这未必是一份很有指导意义的手册,还不如设计prompting套用相同的框架来给你生成一份专属于你行业的指标体系手册。

为什么各行各业都需要指标体系?

指标体系是理解和评估业务表现的关键。它们帮助企业监控进展,识别改进领域,以及做出基于数据的决策。在GPT的帮助下,我们可以更迅速地定义这些指标,使其更加贴合行业特点和企业需求。

从GPT赋能百行百业的角度来看,除了指标体系制定,切入点还有哪些?

如前文说到的“数据的有效解读和应用”也算一个:这涉及到利用GPT对海量数据进行分析,提炼出有价值的信息,并将这些信息转化为可操作的洞察。

因此在工具侧,GPT最先介入的应是:

  1. 梳理百行百业指标体系(乃至挖掘出新的指标)

  2. 面向不同人群进行数据解读(EDA结果、分析结果、图形结果……)

  3. 加速Data Team的工作(本体建模、生成逻辑/物理模型、编写其他数据脚本……)

但是要注意,数据这一行本就从数字化而来,其数字化/智能化程度相对较高,也就意味着提升空间较有限,提升难度也略大。这也是为什么在这段时间以来,总是看到很多“看起来很牛”的应用,但实际上手又觉得“不过如此”。

所以,我们要以数据+X为基础,往上多找一个AI+X。在AI对X进行改造的同时,利用数据为其做出更多价值。因此,数据工具的进化依然非常必要。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询