我要投稿

企业专家智能体 | “从数据到知识”，大模型时代的知识库建设

发布日期：2024-05-22 06:11:01 浏览次数： 2201 作者：文因互联

前言

企业软件架构的演进要求：从数据到知识

传统的数据建模方法已经难以满足当前的需求，近10年来，NoSQL、大数据、数据湖、中台都提出了超越传统数据管理方式的挑战。当今环境数据的复杂性要求有更强大的建模范式：知识。

企业的发展与生长过程中会沉淀下各种“文档”，不论是生产、运营还是对外关系都记录着企业独特的成功经验，也为后续的工作持续提供“企业内部专家”级别的指导与赋能，最终实现效率提升、结构升级的生产与运营目标。

Part.1

什么是知识库？

知识库是企业中用于集中存储、分类、管理和检索知识的系统。它的核心作用是将企业内部的知识资源进行有效地整合和优化，以便快速获取所需的信息和知识，从而提高工作效率和决策质量。

知识库的前身可以追溯到古代文明时期的图书馆和档案室，它们是最早用于存储和传播知识的地方。随着印刷术的发明，知识开始以书籍、报告和手册的形式被广泛复制和传播。

20世纪末，计算机和信息技术的发展促使知识库开始向数字化转型，出现了电子文档管理系统。进入21世纪，随着人工智能、机器学习等技术的发展，知识库不仅能存储知识，还能智能分析、辅助问答。

Part.2

数字化转型就是关于“数字”的吗？

数字化转型就是用“知识”改造手工业为大工业。

如今数字化的发展已经让几乎大部分东西都可以用“数字”来表示，所以“数字化转型”就只是关于数字吗？在文因近两年的积累中，逐渐探索出数字化转型的本质：用知识改造工作流程。

现在大多数的工作流程是一种手工业，我们要把手工业改造成大工业，将内部积累的隐性知识转化为显性知识。本质上来说，无论是客服也好、获客也好、合规也好、运营也好，其实都是关于知识的应用。

企业的数据架构经历了三次重大变化：

刚开始是传统的比较静态的数据仓库，七八年前演进到数据湖，有了针对各种非结构化数据实现实时抽取的能力。三四年前演进到技术中台、 AI 中台，能够实现平台级的业务服务能力。

最近一两年，我们需要更强大引擎，需要数字员工，需要信任机制，需要服务互联机制，需要智能服务的集成能力……

而这一切，都需要新的数据管理方式，就是知识管理的方式。

Part.3

“从数据到知识”，从手工业到大工业

随着人工智能的发展与大模型技术的落地，看到我们几乎所有的企业管理软件被重新再做一遍将被改造成一种大工业工作，而这个改造的过程核心是依靠人工智能的力量，其中最核心的就是依靠大模型的力量。

在今后的 10 年内之内，我们将看到几乎所有的企业管理软件会被重塑，传统的 ERP 系统、 BPM 过程管理系统、CRM 客户管理系统、供应链管理系统、SCM 系统等，所有的这些系统都会被人工智能重塑。

#为什么能做到这一点？

相比以前的算法，大模型是一种全新的范式。以前的人工智能系统，不管是比较经典的 40 年前的专家系统的方法、 20 年前语义网和知识图谱的方法，还是 10 年前的深度学习的方法，都需要人工来做大量的业务规则书写工作，或者需要人工来完成大量的数据标注工作，所以有了这样一句戏称“有多少人工有多少智能”。

大模型让我们能够在无标注语料中，以一种相对自动化的方式把知识给抽取出来。同样我们采用了全新的知识表示、知识运用方法，这其中包括一系列的方法，比如Transformer、强化学习等等。

这些方法使得我们第一次拥有了“让机器说人话”的能力，实现语言之间的自由翻译，让问答引擎看起来不再那么“傻”，也让我们第一次拥有了让机器理解所有文档的能力，这是以前完全不敢想象的事情。

建设一个“企业专家级别”知识库，文因在从实践中总结出四个步骤：

1、语料工程；

2、提示工程；

3、质量工程；

4、运维工程。

早期的知识库多依赖于纸质文档和简单的数据库系统，维护和检索效率较低，且难以实现跨地域的知识共享。目前，文因利用云计算、大数据和人工智能等技术，建设更高效地存储、检索、分析和个性化服务的知识库，让企业内部真正有价值的知识可以快速共享、创新应用。

Part.4

大模型场景化知识库构建

知识库的原始文档通常是各种 PDF 文件，如何从中把核心知识给提取出来？知识库构造的四个层面及方法：

语义知识构建

对原文进行向量化，根据知识密度和应用需要，用相应切分规则获取知识。核心是对原文句子进行建模，用向量数据库技术对原文进行向量化。因为如果把原始句子直接使用，就会忽略大量的信息，尤其是领域相关上下文信息和领域知识。

比如我们在用大模型通过证券业从业资格考试的时候，要让大模型先读两本教辅材料，大概有100万字（7、8万个句子）。把每个句子原样给大模型，效果不会很好。所以我们把这些句子先映射成知识点，再把知识点向量化，最后这些句子变成 1.5 万个知识点再给大模型，效果就好了很多。

这个转化的过程需要业务分析，上述的这次业务分析只花了两天时间，但大幅提高了效率。仅仅是知识向量化这样一个单点技术，就使得我们的整个训练时间下降了 10 倍，这是工程上非常了不起的成就。

摘要知识构建

对原文进行中心思想的提取，再对每个中心思想提出一个问题，并用原文解答该问题。把原始的知识放到知识库，并不仅仅把原文放进去。我们对原文的中心思想进行提取，并对应进行各种模拟场景问答，让大模型在获得知识的同时也获得亚里士多德式教学（问答式教学）。也就是说，我们并不仅仅把原始答案给大模型，也会向大模型抛出问题，让它回答。

这个方法本身就有很多应用场景，比如银行经常需要对员工进行各种规章制度的考核。通常会需要很多咨询公司来帮我们设计问题，现在用大模型来设计问题，就可以大幅减少在这部分培训上的成本。

章节知识构建

解析原文的章节结构，并进行相应的知识提取。以金融文档为例，它跟一般的新闻不一样，会有非常复杂的章节结构，而章节结构本身就包含着大量的业务知识，仅仅是章节的语法结构提取就已经有业务意义了，就是完整性检查。

现在很多证券业特别是债券发行或股票发行，都会要求做完整性检查，规定章节内必须有规定内容，所以能够进行章节知识的构造时，我们就能进行完整性检查了。另外还有合规性检查、规范性检查。例如，第一章之后应紧跟第二章，第二章之后应是第三章。这听起来是理所当然的，但实际上，许多招股书并未满足这一要求。

关系知识构建

抽取关系三元组，利用图数据库构成图谱知识，实现问答增强。这是比较深层次的要求了，虽然在很多知识库场景中，仅仅进行句子级别的现代化就够了，但是还有一些场景需要更细粒度的句子内部的知识理解。

比如公告，平均一个公告大概有十几个数据点，一份招股书就有上万个数据点，把每一个数据点变成一个三元组，通过大模型大幅提高构造知识图谱的能力，从而帮助我们更加精准地实现问答增强的目标。