我要投稿

全新 NVIDIA NIM：可适用于 Mistral 和 Mixtral 模型并为您的 AI 项目赋能

发布日期：2024-07-17 07:06:26 浏览次数： 1959 作者：NVIDIA英伟达企业解决方案

大语言模型（LLM）在企业组织中的应用日益广泛，许多企业都将其整合到 AI 应用中。虽然从基础模型着手十分高效，但需要花费一定的精力才能将它们整合到生产就绪型环境中。NVIDIA NIM 简化了这一过程，使企业能够在数据中心、云、工作站和 PC 等任何位置运行 AI 模型。

专为企业设计的 NIM 提供一整套预构建云原生微服务，这些微服务能够被轻松地整合到现有基础设施中。这些微服务经过精心的维护和持续的更新，具有开箱即用的性能，并确保您能够获得 AI 推理技术的最新进展。

适用于大语言模型的全新 NVIDIA NIM

基础模型的增长源于其能够满足各种企业需求的能力，但没有任何一个单一的模型能够完全满足企业的需求，企业通常会根据特定的数据需求和 AI 应用工作流，在其用例中使用不同的基础模型。

考虑到企业需求的多样化，我们扩大了 NIM 的阵容，涵盖了 Mistral-7B、Mixtral-8x7B 和 Mixtral-8x22B，这三个基础模型在特定任务中的表现都十分出色。

图 1. 新的 Mixtral 8x7B Instruct NIM

可从 NVIDIA API 中获取

Mistral 7B NIM

Mistral 7B Instruct 模型在文本生成和语言理解任务中表现出色。该模型可在单个 GPU 上运行，非常适合语言翻译、内容生成和聊天机器人等应用。将 Mistral 7B NIM 部署至 NVIDIA 数据中心 GPU 后，开发者在内容生成任务中可实现的开箱即用性能（token/秒），其性能最多可提升至没有使用 NIM 时的 2.3 倍。

图 2. Mistral 7B NIM 提高了内容生成的吞吐量

基于 1 个 NVIDIA Tensor Core GPU，输入 500 个 token，输出 2,000 个 token。NIM 开启时：FP8。吞吐量为 5,697 token/秒，TTFT 为 0.6 秒，ITL 为 26 毫秒。NIM 关闭时：FP16。吞吐量为 2,529 token/秒，TTFT 为 1.4 秒，ITL 为 60 毫秒。

Mixtral-8x7B 和

Mixtral-8x22B NIM

Mixtral-8x7B 和 Mixtral-8x22B 模型采用混合专家（MoE）架构提供快速且经济高效的推理。这两个模型在总结、问题解答和代码生成等任务中表现出色，非常适合需要实时响应的应用。

相较无 NIM 运行的情况，NIM 可以提高这两种模型的开箱即用性能。当用于内容生成且在 1 个 NVIDIA Tensor Core GPU 上运行时，Mixtral-8x7B NIM 的吞吐量最多可提高 4.1 倍。在内容生成和翻译用例中，Mixtral-8x22B NIM 的吞吐量最多可提高 2.9 倍。

图 3. Mixtral 8x7B NIM

提高了内容生成的吞吐量

输入 500 个 token，输出 2,000 个 token。200 个并发请求。NIM 开启时：FP8。吞吐量为 9,410 token/秒。TTFT 为 740 毫秒，ITL 为 21 毫秒。NIM 关闭时：FP16。吞吐量为 2,300 token/秒，TTFT 为 1,321 毫秒，ITL 为 86 毫秒。