AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


大模型+数据智能分析应用发展趋势及标准化工作介绍
发布日期:2024-10-25 18:36:37 浏览次数: 1981 来源:DataFunSummit


导读 本文介绍中国信通院在数据智能领域的工作进展和标准化研究工作,着重讨论大模型+数据智能应用相关领域的研究发现、趋势以及标准化工作,旨在促进数据产业的发展。

今天的介绍会围绕下面两点展开:


1. 大模型+数据智能分析应用发展趋势

2. 大模型+数据智能分析应用标准化工作介绍

分享嘉宾|韩晓璐 中国信息通信研究院 业务主管

编辑整理|张静

内容校对|李瑶

出品社区|DataFun


01

大模型+数据智能分析应用发展趋势



1. 人工智能演进




1950 年艾伦提出图灵测试,为整个机器智能机器的判定提供了依据。1956 年人工智能第一次被正式提出,标志着整个人工智能成为一个专业的领域或者学科,被大家所研究。到 80-90 年代,整个人工智能是围绕知识去展开的。利用一些专家知识库,一些推荐引擎,模拟特定领域专家能力去做决策。到 90 年代-2000 年,算法技术有一定的进步,再加上数据也积累到一定的量,整个机器学习就成为人工智能技术研究的中心,决策树、支持向量机和早期的神经网络都已出现。从 2000 年到 10 年代,大数据技术和深度学习技术飞速发展,卷积神经网络和循环神经网络都有了一定的发展,人工智能在图像和语言的处理上取得了一系列的进展。到 2018 年,预训练模型即大模型的前身出现,由于数据量有限,它还没有那么的智能。到 2022 年,大语言模型正式推出。到 2023 年 3-4 月份 ChatGPT3.5 发布,让大语言模型再次被推上一个新的风口。


2. 大模型落地关键技术



大语言模型在出现之后,各行各业各个领域都在努力尝试落地。在落地过程中有几项核心技术,我们分析了这些技术实现的难度,以及实现过程中可能面临的问题。


  • 第一个是提示词工程,它是最简单的,成本最低的。这里分为两个部分,第一部分是工程师会通过提示词工程去拆分问题,让预训练的模型或者大模型根据提示工程去进行任务执行和答案输出,这需要工程师对模型有一定了解。一般用户在与大模型交互时,提问的过程其实也是提示词设计的过程,只有把问题按照一定的规则进行表述之后,才能拿到比较符合预期的答案。



    提示词工程最大的优点是成本低,工程师或用户有一定的媒介素养就可以实现。但是输出稳定性比较差,并且对使用人员或工程师的要求会比较高。同时也需要预训练大模型的能力,才能通过提示词激发其释放能力。如果基座模型能力本来就不足,或者本来就不知道领域知识,那再怎么设计提示词都是没有用的。



  • 第二项技术是微调。在某领域内有一些自己已经沉淀好的知识,尝试把这些知识喂给大模型,让大模型学习这些知识,从而了解该领域的特有知识,从而更好地回答这个领域内的问题。我们发现大模型微调适用范围非常广,通过微调能够输出稳定答案。



    但它也存在短板,首先要求有一定量的领域数据,若数据量不够,或者数据质量不高,都没有办法实现微调。另外,技术要求较高,大模型微调过程中会有各种各样的参数,并且调整一个参数会连带其它参数产生影响,不可控因素较多,所以要求相关人员具备非常高的技术水平以及微调经验,才能保证微调结果符合预期。



  • 第三项技术是检索增强生成,即 RAG 技术。该技术通过外挂一个知识库,用户提出问题后,大模型对问题进行理解和拆分,之后访问外挂知识库,检索出相关知识片段,再喂给大模型,大模型再根据这个外部知识库检索的片段以及内部检索的一些信息,生成最终的答案。



    RAG 技术的优点,首先是能够补充企业内部或某个行业、某个领域的知识,通过外挂方式,保证知识是最新的,同时也使用外挂知识去控制整个大模型答案的输出,达到可控生成的目的。然而,检索增强技术生成系统复杂度非常高,比如检索怎么排序,对用户问题怎么拆解,怎么组成最后的答案,在整个搜索过程中怎么保证回答是符合预期的等等,都是技术发展过程中或者实践过程中会遇到的问题。针对这些问题,我们后续也会开展相关标准研制的工作。



3. 数据智能体




数据智能体,即通过模拟人的行为,去调度各种各样的资源完成某项任务,通过智能体可以调度各种数据分析工具实现数据分析的目标。在这个层面,我们也研制了相关的标准。


4. 数据智能应用新范式




大模型对传统数据智能应用模式赋能显著。


  • 首先,在数据层面,一个比较成熟的落地场景就是 chat BI。我们从 2023 年 9 月开始研制相关标准,并于 11 月研制完成。目前已经有十多个企业完成了相关评测,利用大模型实现 NL2SQL 并进行数据分析已经有了成熟的落地方案,也是业界比较认可的一个方向。



  • 其次,在知识层面,各大企业都在落地智能问答产品或系统,将企业内部数据进行简单的整合加工之后,利用大模型去进行一些问答的工作,从而提高企业内部人员知识查询的效率。



  • 第三,在创意层面,智能生成展现出了巨大潜力。比如文生视频、文生图等应用,可以降低设计人员的工作量,提升创意生成的效率。



  • 最后,在决策层面,大模型驱动的智能体可以仿模仿人类的决策过程,通过感知不同环境来规划任务,为决策和执行提供助力。



除了上述几个已经相对成熟的应用之外,更多的大模型落地范式还在不断尝试和探索中。然而落地过程中,仍存在一些问题与挑战:


  • 数据治理工作缺失:很多企业的内部数据,无论是体量、质量,还是丰富度都存在不足,这种情况下想用大模型去做一些智能化的事情,第一步就要完成数据治理的工作,这也成为了很多企业大模型应用落地的拦路虎。



  • 实施门槛高及前期投入较高:在大型国央企,以及数据隐私敏感度比较高的企业,希望大模型私有化部署,但私有化部署的成本非常高,不是所有企业都能承担得起,即使企业能够承担,在落地实施的过程中还要考虑投入产出比的问题,所以这也是大模型应用落地的一个比较大的卡点。



  • 软硬件技术能力低:目前我国软硬件技术与国外还存在一定差距。



基于对发展趋势及存在问题的分析和研究,我们开展了一系列标准研制的工作,希望通过标准,为产业界落地发展提供一些依据和方向。


5. 数据智能应用标准化工作




标准研制工作围绕三个方向展开:数据智能应用技术,数据智能服务,以及业务数智化。数据智能应用技术部分,主要是为数据智能工具平台的研发、选型和评测提供参考,包括一些通用数据智能应用技术标准和一些大模型驱动的数据智能应用技术标准


其中大模型相关标准包括:


  • 《大模型驱动的数据分析工具技术要求》


  • 《大模型驱动的知识图谱工具技术要求》


  • 《检索增强生成技术能力要求》


  • 《大模型驱动的智能问答系统技术要求》


  • 《数据智能体技术总体要求》


  • 《数据分析智能体技术要求》


接下来将对这些标准进行详细介绍。


02


大模型+数据智能分析应用标准化工作介绍



1. 《大模型驱动的智能数据分析工具技术要求》标准介绍




BI 工具经历了 1.0、2.0 时代的发展,现在已步入大模型驱动的 3.0 时代。利用大模型的能力,可以进一步降低数据分析的门槛,提升整体效率。



为规范大模型在数据分析领域标准化的应用发展,信通院联合 50 余家企业共同研制了《大模型驱动的智能数据分析工具》标准,标准涵盖了数据准备、大模型智能分析、智能交互、集成部署、安全管理等 6 大能力域,18 个能力子域,54 个能力项。其中与大模型紧密相关的是大模型智能分析和智能交互这两个能力域。


大模型智能分析要求必须接入一个基座大模型,在此基础上进行一些领域适配,提升其 NL2SQL 等能力,或通过外挂企业知识库,让其更好地理解企业内部特有术语和指标等。同时,通过 Agent 调用模型或工具,实现智能分析。


智能交互是让用户可以通过自然语言的方式,方便快捷地进行查询,并通过可视化的形式获得数据。


该标准于 2023 年 11 月研制完成,截至目前已有十余家企业完成了评估。第一版标准主要从系统功能的层面提出了要求,接下来将更关注落地实践的性能指标,比如生成的准确率和查询的效率等方面,制定更进一步的标准。


2. 《大模型驱动的智能知识图谱技术要求》标准介绍




知识图谱是早期人工智能最核心的技术,但由于其构建成本非常高,要求大量的人工介入,并且知识更新困难,因此没有能够被很好地利用。随着大语言模型的出现,为知识图谱提供了新的契机,大语言模型强大的自然语言理解能力能够帮助知识图谱完成自动的构建和更新。我们从利用大模型赋能知识图谱构建这一点切入,研制了大模型驱动的智能知识图谱的相关标准。



信通院联合厦门渊亭科技共同牵头,依托 TC601 拟制定团体标准《大模型驱动的智能知识图谱技术要求》,标准规范了数据准备、模型场景化适配、智能知识图谱构建、智能交互应用、知识图谱存储与管理 6 大能力域,15 个能力子域,120 余项技术要求。目前已有数十企业完成了相关评测。



当前标准主要是针对大模型赋能知识图谱,后续还会围绕知识图谱赋能大模型的方向展开标准研制工作。知识图谱赋能大模型内容生成,即 Graph RAG,利用知识图谱的结构化表示,可以更深入地理解查询的上下文,从而提供更准确和有见地的答案。


3. 《检索增强生成技术能力要求》标准介绍




检索增强生成是一种通过检索外部知识库来改进内容生成效果的技术方案,通过引入检索过程,从预先构建的数据存储中检索相关内容,能有效缓解 AIGC 技术的幻觉问题,提高知识更新速度,并增强内容生成的多样性和可追溯性。



经典范式(Advance RAG)是在传统 RAG 模型的基础上引入预检索优化、索引优化、后检索处理等相关优化技术,以提高生成答案的准确性和相关性。



一期标准主要围绕技术落地和系统架构提出了技术要求,要求具备知识库构建能力、知识检索能力、内容生成能力、质量评估能力,以及平台管理能力。虽然构建起一套 RAG 系统并不复杂,但要保证生成的答案能够达到预期是很难的,需要进行一系列的优化工作。后续我们也会针对性能、准确率等细节方面研制新的标准。


4. 《大模型驱动的智能知识问答系统技术要求》标准介绍




传统的知识问答系统,通常会预建一个知识库存储常见的用户问题及对应的答案,通过关键词匹配的方式检索 QA 对的答案,解答用户问题。这一过程存在很多问题,比如对用户问题理解不准确,关键词匹配效率和精度都较差。大模型出现后,利用其自然语言理解能力、检索能力,以及答案生成的能力,可以实现真正的智能问答。



2024 年初,信通院联合 40 余家企业的 80 余位专家,充分参考各行业智能知识问答系统落地实践经验,研制完成了相关标准。标准包括知识接入及管理,大模型场景化适配,智能问答应用,系统安全管理等 4 大能力域,13 个能力子项,40 余个能力项目。


5. “数据智能体”系列标准介绍




最后要介绍的是数据智能体相关技术。数据智能体,即用来处理各种数据分析任务的智能体,可以根据用户诉求调用不同的工具,并由智能体进行归纳整合,以获得全面、准确的分析结果。



信通院联合 40 余家企业的 80 余位专家,充分参考各行业数据智能体落地实践经验,研制完成了相关标准。在标准研制的过程中,我们发现数据智能体是一个总括性的概念,在不同细分领域落地时有着不同的能力要求,因此我们研制了一系列的标准,而非单一标准。目前已经完成了《数据智能体技术总体要求》和《数据分析智能体技术要求》两项标准。标准包括数据集成、任务规划与执行、工具及插件能力、自我进化、运维评测及集成和安全管理等 6 大能力域,20 个能力子项,60 余个能力项目。为数据智能体在各行业各领域落地提出了系统级的要求,当然后续也会研制出性能层面的更多标准。


以上就是本次分享的内容,谢谢大家。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询