我要投稿

一文探秘LLM应用开发(2)

发布日期：2024-05-18 13:50:07 浏览次数： 2201

作者：AI工程化

微信搜一搜，关注“AI工程化”

本文旨在让无大模型开发背景的工程师或者技术爱好者无痛理解大语言模型应用开发的理论和主流工具，因此会先从与LLM应用开发相关的基础概念谈起，并不刻意追求极致的严谨和完备，而是从直觉和本质入手，结合笔者调研整理及消化理解，帮助大家能够更容易的理解LLM技术全貌，大家可以基于本文衍生展开，结合自己感兴趣的领域深入研究。若有不准确或者错误的地方也希望大家能够留言指正。

本文体系完整，内容丰富，由于内容比较多，分多次连载。

第一部分基础概念

1.机器学习场景类别

2.机器学习类型(LLM相关)

3.深度学习的兴起

4.基础模型

第二部分应用挑战

1.问题定义与基本思路

2.基本流程与相关技术

1）Embbeding与Tokenization

2）向量数据库

3）finetune（微调）

4）模型部署与推理

5）prompt

6）编排与集成

7）预训练

第三部分场景案例

常用参考

第二部分应用挑战

1.问题定义与基本思路

对于大模型应用来讲，核心工作围绕这个问题展开：

如何让大模型能够完成具体领域场景的实际工作，并且能够提升和干预效果？

从影响大模型的能力和效果的两个因素入手：

1）模型（内在）

可以将模型理解为知识和能力的混合体，经过微调的模型包含了学到的知识，逻辑，也包含执行具体某个任务的能力。但它有个缺点就是比较重量级，训练和更新需要大量的时间和成本，这也就导致模型知识不够及时，变更困难，黑盒难控制，能力扩展难度高等问题。

2）提示词(prompt)（外在）

可以将其理解为知识和指令的混合体，类比于AI 1.0的判别模型，提示词相当于特征输入，因此AI2.0将特征工程（feature enginering）晋级为提示词工程（prompt enginnering），特征工程决定了模型的上限，从这个角度侧面可见用好提示词的重要性。prompt可以给大模型直接表达需求（zero-shot），也可以给它示例（few-shot）解释需求，也可以一步步教它思考（chain of thought）一起完成需求，还可以给它一些背景信息（context），帮助它理解问题和回顾历史。因此，prompt有很好的灵活性和透明性，能够轻量级地完成一些看似神奇的工作。但prompt也有它的约束，受限于大模型性能和成本考虑，prompt的大小有限，加之每次请求都需要携带大量信息来维持状态，在性能上也有一定缺陷。

那么，针对于这两个因素，我们分别可以做些什么干预模型呢？

1）针对于模型本身的优化为：fine-tune

图@jerryjliu0

对于fine-tune来讲，影响的是模型的权重。

2）针对于输入的优化为：in-context learning，即prompt learning

图@jerryjliu0

两者比较：

调优方法	优势	缺点
提示词优化	提升效果明显成本极低	占用token多，影响上下文关联长度
embedding	扩展GPT知识调优成本较低	GPT并非真的理解了相关的内容，而是在遇到相关问题时，能够基于给定的知识库回答。
finetune	搭建真正的私有模型，GPT能理解相关的问题。	成本较高，需要大量的“问答对”，训练过程非常消耗token。

可以看出，提示词具有相当大的应用优势，具备很明显的成本和灵活性优势，使用门槛也比较低，随着token数量的不断增长及prompt压缩方案的提出，prompt层面的工作将是工程化方案的最重要的内容。

工程改进：

如上面分析，目前提示词中需要包含需求，背景，例子，历史等很多内容，就拿常见的检索场景，如何让大模型在海量的文章里总结回答，这不仅受限token的大小，还会导致响应的时间过长，不能满足用户的需要，那么在不能提高token数量，及提升大模型推理的条件下，如何解决这一问题呢？

图@jerryjliu0

那就是对于prompt进行压缩提炼，一个常见做法是外部引入一个检索流程，增加一步粗筛召回的逻辑，减少候选范围，便能明显缓解这一问题。而这一过程，还有一个明显的好处，给了大模型一个发挥的范围，使得大模型能够在更可靠的知识内容基础上总结推理，一定程度上可以避免模型黑盒条件下的自说自话，提高了输出的可信度。另一方面，对于提升模型返回角度考虑，增加检索流程，可以对提示词进行检索增强（retrieval augmentation），比如对接知识图谱，业务知识库等，能够提高输出的质量。

总结一下，增加检索流程，有三个作用：精炼prompt，提高可信度，提高模型输出质量。

检索方式选择向量检索的原因

目前业内主流做法是采用向量检索的方式来做检索增强。很多同学有疑问为什么要用向量数据库，原来传统的ElasticSearch这样的文本检索的方案是否可以？

实际上，结合上面的分析来看，也不是不可以，本质上是大模型外围需要一个检索和存储的组件来完成检索过程，只要能满足这样的要求，均可以采纳。那么为什么大家不约而同选择了向量检索？