微信扫码
与创始人交个朋友
我要投稿
导读 本文介绍中国信通院在数据智能领域的工作进展和标准化研究工作,着重讨论大模型+数据智能应用相关领域的研究发现、趋势以及标准化工作,旨在促进数据产业的发展。
1. 大模型+数据智能分析应用发展趋势
2. 大模型+数据智能分析应用标准化工作介绍
分享嘉宾|韩晓璐 中国信息通信研究院 业务主管
编辑整理|张静
内容校对|李瑶
出品社区|DataFun
大模型+数据智能分析应用发展趋势
1. 人工智能演进
第一个是提示词工程,它是最简单的,成本最低的。这里分为两个部分,第一部分是工程师会通过提示词工程去拆分问题,让预训练的模型或者大模型根据提示工程去进行任务执行和答案输出,这需要工程师对模型有一定了解。一般用户在与大模型交互时,提问的过程其实也是提示词设计的过程,只有把问题按照一定的规则进行表述之后,才能拿到比较符合预期的答案。
提示词工程最大的优点是成本低,工程师或用户有一定的媒介素养就可以实现。但是输出稳定性比较差,并且对使用人员或工程师的要求会比较高。同时也需要预训练大模型的能力,才能通过提示词激发其释放能力。如果基座模型能力本来就不足,或者本来就不知道领域知识,那再怎么设计提示词都是没有用的。
第二项技术是微调。在某领域内有一些自己已经沉淀好的知识,尝试把这些知识喂给大模型,让大模型学习这些知识,从而了解该领域的特有知识,从而更好地回答这个领域内的问题。我们发现大模型微调适用范围非常广,通过微调能够输出稳定答案。
但它也存在短板,首先要求有一定量的领域数据,若数据量不够,或者数据质量不高,都没有办法实现微调。另外,技术要求较高,大模型微调过程中会有各种各样的参数,并且调整一个参数会连带其它参数产生影响,不可控因素较多,所以要求相关人员具备非常高的技术水平以及微调经验,才能保证微调结果符合预期。
第三项技术是检索增强生成,即 RAG 技术。该技术通过外挂一个知识库,用户提出问题后,大模型对问题进行理解和拆分,之后访问外挂知识库,检索出相关知识片段,再喂给大模型,大模型再根据这个外部知识库检索的片段以及内部检索的一些信息,生成最终的答案。
RAG 技术的优点,首先是能够补充企业内部或某个行业、某个领域的知识,通过外挂方式,保证知识是最新的,同时也使用外挂知识去控制整个大模型答案的输出,达到可控生成的目的。然而,检索增强技术生成系统复杂度非常高,比如检索怎么排序,对用户问题怎么拆解,怎么组成最后的答案,在整个搜索过程中怎么保证回答是符合预期的等等,都是技术发展过程中或者实践过程中会遇到的问题。针对这些问题,我们后续也会开展相关标准研制的工作。
3. 数据智能体
4. 数据智能应用新范式
首先,在数据层面,一个比较成熟的落地场景就是 chat BI。我们从 2023 年 9 月开始研制相关标准,并于 11 月研制完成。目前已经有十多个企业完成了相关评测,利用大模型实现 NL2SQL 并进行数据分析已经有了成熟的落地方案,也是业界比较认可的一个方向。
其次,在知识层面,各大企业都在落地智能问答产品或系统,将企业内部数据进行简单的整合加工之后,利用大模型去进行一些问答的工作,从而提高企业内部人员知识查询的效率。
第三,在创意层面,智能生成展现出了巨大潜力。比如文生视频、文生图等应用,可以降低设计人员的工作量,提升创意生成的效率。
最后,在决策层面,大模型驱动的智能体可以仿模仿人类的决策过程,通过感知不同环境来规划任务,为决策和执行提供助力。
数据治理工作缺失:很多企业的内部数据,无论是体量、质量,还是丰富度都存在不足,这种情况下想用大模型去做一些智能化的事情,第一步就要完成数据治理的工作,这也成为了很多企业大模型应用落地的拦路虎。
实施门槛高及前期投入较高:在大型国央企,以及数据隐私敏感度比较高的企业,希望大模型私有化部署,但私有化部署的成本非常高,不是所有企业都能承担得起,即使企业能够承担,在落地实施的过程中还要考虑投入产出比的问题,所以这也是大模型应用落地的一个比较大的卡点。
软硬件技术能力低:目前我国软硬件技术与国外还存在一定差距。
5. 数据智能应用标准化工作
大模型+数据智能分析应用标准化工作介绍
1. 《大模型驱动的智能数据分析工具技术要求》标准介绍
2. 《大模型驱动的智能知识图谱技术要求》标准介绍
3. 《检索增强生成技术能力要求》标准介绍
4. 《大模型驱动的智能知识问答系统技术要求》标准介绍
5. “数据智能体”系列标准介绍
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-12-26
AGI前夜!别再卷技术了,快来拯救世界!
2024-12-26
微软 OmniParser:如何让机器 “看懂” 手机电脑界面?
2024-12-26
Token已死?AI认知的新范式正在崛起
2024-12-26
字节和BAT,谁能缚住AI苍龙?
2024-12-26
大模型语义分析之嵌入(Embedding)模型
2024-12-26
Anthropic:高效构建AI Agent的最佳实践范式
2024-12-26
微软CEO纳德拉给出AI时代的关键答案:先有组织进化,才有技术突破(附视频)
2024-12-26
10分钟了解大模型应用全貌 : 大模型应用架构(LLM application architecture)
2024-05-28
2024-08-13
2024-04-26
2024-08-21
2024-07-09
2024-06-13
2024-08-04
2024-04-11
2024-07-18
2024-07-01