AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


行业大模型的底层逻辑究竟如何?
发布日期:2024-05-15 21:10:21 浏览次数: 1908


在ChatGPT的引爆下,各类通用大模型应用可谓百花齐放:谷歌Gemini、百度文心一言、阿里通义千问、讯飞星火、智谱清言.....。

虽然通用大模型市场一片繁荣景象,但前景如何,盈利模式怎么样,其实都还不明朗。市场也有声音说行业大模型是未来的发展方向。那行业大模型与通用大模型之间有什么不一样呢?

简单来说,行业大模型是在通用大模型的基础上构建的,通过使用行业特定的数据和知识对其进行训练,行业大模型针对特定行业进行微调或定制,因此具备行业特定的知识和专业术语,生成的文本更准确。

以上是表面上的区别,底层逻辑或者说底层技术架构又有哪些不一样呢?我们先看看直接调用公有通用大模型的技术架构
这种是最简单的方式,行业应用通过提示(Prompt给到AI大模型直接拿到结果。当然,如果只调用一个通用大模型(而不是多个),也就变成了常说的“套壳”,调用多个可以说是“集成”,哈哈。
此外,大模型本身通常无法获取实时信息(比如实时股票信息),调用外部实时数据,通常可以通过函数调用Function Calling)的方式,如下图所示:

回到今天的主题:行业大模型,它可以基于通用大模型,有几种架构可以实现对行业特定知识的获取。

一,最简单的做法是直接引入检索增强生成(RAG)。

RAG一般用于检索企业私有知识库中的信息,让私有知识库和AI大模型更好地融合。应用程序首先调用RAG组件,利用其检索能力在特定的知识库中寻找与用户Prompt相关的信息。如下图所示:
RAG组件通过分析Prompt和知识库内容,返回与之最相关的信息或数据。将RAG返回的信息或数据整合进一个新的Prompt中。这个新Prompt包含了原始用户请求的上下文信息,以及通过RAG检索获得的相关知识。然后应用将这个包含了检索信息的新Prompt发送给大模型。

二,RAG还可以采用下图技术架构。两者的区别在于引入RAG的位置不同。

三,更进一步,可以将RAG信息直接微调(Fine-tuning)到大模型本身,这样新的行业大模型中就有了RAG的信息。架构如下图所示:

通常进行一次微调的成本也不低,因此,一般是到了某个阶段才会微调一次。微调前,新知识可以暂时先存入到向量数据库中,通过RAG(方案一、二)获取。隔了一段时间,当新知识积累到一定程度再次做一次微调,做完微调后大模型中就有了这部分新知识。

综上所述,行业大模型可以基于通用大模型,采用“通用大模型+外部API+RAG的组合方式为用户提供服务;通过微调,可以将RAG内容定期训练到通用大模型中,形成真正的行业大模型。当然,行业大模型也可以从头开始训练,无需通用大模型作为基础,但这样无异于从头“造轮”,必要性不大。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询