我要投稿

如何优化 LLM 的性能和可扩展性

发布日期：2024-08-16 08:16:14 浏览次数： 2307

作者：PyTorch研习社

微信搜一搜，关注“PyTorch研习社”

大型语言模型（LLM）已成为自然语言处理的驱动催化剂。它们的用例范围从聊天机器人和虚拟助手到内容生成和翻译服务。显然，它们已成为科技界增长最快的领域之一。

随着对更强大的语言模型的需求不断增长，对有效优化技术的需求也在增长。

然而，许多自然问题出现了：

如何提高他们的知识？

如何提高他们的总体表现？

如何扩大这些模型的规模？

John Allard 和 Colin Jarvis 在 OpenAI开发者日发表了题为《A Survey of Techniques for Maximizing LLM Performance》的演讲，试图回答这些问题。这个演讲很好地概述了用于提高 LLM 应用程序性能的各种技术和最佳实践。如果你错过了这次活动，你不用担心，看完本文就可以了。本文旨在总结提高我们 AI 驱动解决方案的性能和可扩展性的最佳技术。

理解基础知识

LLM 是复杂的算法，旨在理解、分析和生成连贯且适合上下文的文本。它们通过对涵盖不同主题、方言和风格的大量语言数据进行大量训练来实现这一目标。因此，它们可以理解人类语言的工作原理。

但是，在将这些模型集成到复杂的应用程序中时，需要考虑一些关键挑战：

优化 LLM 的关键挑战

LLM 准确性：确保 LLM 输出的信息准确可靠，没有幻觉。
资源消耗：LLM 需要大量计算资源，包括 GPU 能力、内存和大型基础设施。
延迟：实时应用程序要求低延迟，考虑到 LLM 的大小和复杂性，这可能具有挑战性。
可扩展性：随着用户需求的增长，确保模型能够处理增加的负载而不会降低性能至关重要。

提高性能的策略

第一个问题是关于“如何提高他们的知识？”

创建部分功能的 LLM 演示相对容易，但要对其进行改进以投入生产则需要不断改进。LLM 可能需要帮助来完成需要深入了解特定数据、系统和流程或精确行为的任务。

团队使用提示工程、检索增强和微调来解决此问题。一个常见的错误是假设此过程是线性的，应按特定顺序进行。相反，根据问题的性质，沿着两个轴来处理它会更有效：

上下文优化：问题是否是由于模型缺乏对正确信息或知识的访问造成的？
LLM 优化：模型是否未能生成正确的输出，例如不准确或不符合所需的样式或格式？

为了应对这些挑战，可以采用三种主要工具，每种工具在优化过程中都发挥着独特的作用：

提示工程：定制提示以指导模型的响应。例如，改进客户服务机器人的提示，以确保它始终提供有用且礼貌的响应。
检索增强生成 (RAG)：通过外部数据增强模型的上下文理解。例如，将医疗聊天机器人与最新研究论文的数据库集成，以提供准确且最新的医疗建议。
微调：修改基础模型以更好地适应特定任务。就像使用法律文本数据集微调法律文件分析工具以提高其总结法律文件的准确性一样。

该过程是高度迭代的，并非每种技术都适用于你的特定问题。但是，许多技术都是附加的。当你找到有效的解决方案时，你可以将其与其他性能改进相结合以获得最佳结果。

优化性能的策略

第二个问题是关于“如何提高它们的总体性能？”

在拥有准确的模型之后，第二个令人担忧的点是推理时间。推理是经过训练的语言模型（如 GPT-3）在实际应用程序（如聊天机器人）中生成对提示或问题的响应的过程。

这是一个关键阶段，在此阶段，模型将接受测试，在实际场景中生成预测和响应。对于像 GPT-3 这样的大型 LLM，计算需求巨大，因此在推理过程中进行优化至关重要。

考虑一个像 GPT-3 这样的模型，它有 1750 亿个参数，相当于 700GB 的 float32 数据。这个大小加上激活要求，需要大量 RAM。这就是为什么运行没有优化的 GPT-3 需要大量设置的原因。

可以使用一些技术来减少执行此类应用程序所需的资源量：

模型修剪：它涉及修剪非必要参数，确保只保留对性能至关重要的参数。这可以大幅减小模型的大小，而不会显著损害其准确性。
这意味着在保持相同准确性的同时，计算负荷显著减少。
量化：这是一种模型压缩技术，可将 LLM 的权重从高精度变量转换为低精度变量。这意味着我们可以将 32 位浮点数减少为 16 位或 8 位等低精度格式，这些格式更节省内存。这可以大幅减少内存占用并提高推理速度。
可以使用 HuggingFace 和 bitsandbytes 以量化方式轻松加载 LLM。这使我们能够在低功耗资源中执行和微调 LLM。

from transformers import AutoModelForSequenceClassification, AutoTokenizer import bitsandbytes as bnb 
# Quantize the model using bitsandbytes quantized_model = bnb.nn.quantization.Quantize( model, quantization_dtype=bnb.nn.quantization.quantization_dtype.int8 )

蒸馏：这是训练较小模型（学生）以模仿较大模型（也称为老师）性能的过程。此过程涉及训练学生模型以模仿老师的预测，使用老师的输出逻辑和真实标签的组合。通过这样做，我们可以用一小部分资源需求实现类似的性能。
这个想法是将较大模型的知识转移到具有更简单架构的较小模型中。最著名的例子之一是 Distilbert。该模型是模仿 BERT 性能的结果。它是 BERT 的较小版本，保留了 97% 的语言理解能力，同时速度提高了 60%，尺寸缩小了 40%。

可扩展性技术

第三个问题是“如何扩展这些模型？”

这一步通常至关重要。当操作系统由少数用户使用时，与当它扩展以适应密集使用时，其行为可能会有很大不同。以下是解决这一挑战的一些技术：

负载平衡：这种方法可以有效地分配传入的请求，确保计算资源的最佳利用和对需求波动的动态响应。例如，为了在不同国家/地区提供像 ChatGPT 这样广泛使用的服务，最好部署同一模型的多个实例。
有效的负载平衡技术包括：

水平扩展：添加更多模型实例以处理增加的负载。使用 Kubernetes 等容器编排平台来管理不同节点上的这些实例。
垂直扩展：升级现有的机器资源，例如 CPU 和内存。

分片：模型分片将模型的各个部分分布在多个设备或节点上，从而实现并行处理并显著减少延迟。完全分片数据并行 (FSDP) 的主要优势在于，它能够在多个集群中使用多种硬件，例如 GPU、TPU 和其他专用设备。这种灵活性使组织和个人能够根据其特定需求和预算优化硬件资源。
缓存：实施缓存机制可通过存储频繁访问的结果来减少 LLM 的负载，这对于具有重复查询的应用程序尤其有益。缓存这些频繁查询可以显著节省计算资源，因为无需重复处理相同的请求。