导读 近年来,大语言模型(LLM,后简称大模型)的发展突飞猛进。本文将分享未来速度公司在开源领域以及大模型落地过程中的核心产品——Xinference,其定位是一个真正企业级的、严肃的大模型推理和部署平台。公司致力于在 LLMOps(大模型运维)过程中,帮助大家降低部署的成本和难度,解决在落地过程中遇到的核心问题。
1. 大模型推理基础
2. 大模型推理现状和困难
3. Xinference:企业级推理和部署
4. 未来展望
分享嘉宾|秦续业 杭州未来速度科技有限公司 联合创始人
编辑整理|向隆
内容校对|李瑶
出品社区|DataFun
01
大模型推理基础
1. LLM 推理概述
在当前这一波 AI 技术栈的发展中,大模型扮演着非常核心的角色。无论在其基础上构建何种应用,是以检索增强生成(RAG)为主的应用,还是以 AI 代理体系构建的应用,底层都需要依赖一个大型模型来完成最核心的任务。无论是涉及思维链的处理,还是以对话形式为主的交互,其实质都是基于大模型进行推理的过程。
大模型的基本工作原理相对简单,即采用自回归(Auto
regressive)体系。所谓自回归,是指将一系列提示词(可以称为 tokens)输入给大模型,大模型会预测下一个词(next token)。预测完成后,它会将这个新词加入到当前的上下文中,然后继续预测下一个词,这一过程持续进行直到模型认为可以停止或达到了预设的输出长度。这就是目前大模型进行推理的工作流程。
在这个过程中,为了使下一个词的预测更加符合需求,会使用多种技术。然而,精准并非在所有场景下都是首要目标。例如,在涉及创意的文字工作中,我们更希望模型具备一定的创造性;而在编程等领域,则更强调下一个词的准确性。所有这些大模型推理的发展,都离不开最初的奠基性论文《Attention Is All You Need》,这篇论文被视为这一波大型语言模型发展的鼻祖。
《Attention Is All You Need》提出了以注意力机制为主导的架构,主要围绕编码器(Encoder)-解码器(Decoder)结构。后来以 BERT 为代表的模型架构仅限于编码器(Decoder Only),但其影响力深远。关于编码器-解码器的具体架构细节,此处不再展开。
后来,OpenAI 推出的 GPT 架构采用了仅解码器(Decoder-only)的结构,这种架构更适合生成任务的场景。整个大模型推理过程,可以简化为三个主要步骤:
- Embedding(嵌入):首先,输入的文本会被转换为向量表示,即嵌入过程。这一步将文本中的词汇或短语映射为高维向量,以便模型能够处理和理解。
- Decoder(解码):接下来,解码器会基于嵌入的向量进行处理,生成下一个词的概率分布。解码器利用注意力机制和其他模型结构,预测下一个最可能的词。
- Sampling(采样):最后,从解码器生成的概率分布中进行采样,选择一个具体的词作为输出。这一步决定了最终生成的文本内容。
通过这三个步骤,大模型能够完成从输入到输出的推理过程,生成符合需求的文本。
Embedding 过程是大模型推理的初始阶段,其核心作用是将输入的 token ID 转换为词向量(embedding)。具体来说,这一步骤将离散的 token ID 映射为连续的高维向量表示,使得模型能够理解和处理文本。
然而,Transformer 架构本身并不包含位置信息。例如,在句子“人吃肉”和“肉吃人”中,Transformer 无法区分词的顺序,因为它们在架构中是并行处理的。为了解决这个问题,需要引入位置编码(positional embedding),即位置信息。位置编码的作用是将词在句子中的位置信息加入到词向量中,使得模型能够区分词的顺序。
最终,词向量和位置向量会叠加在一起,形成一个包含词义和位置信息的完整向量表示。这一向量随后会被输入到 Transformer 的后续层中进行进一步处理,从而确保模型能够理解词的顺序和上下文关系。第二步是 Transformer 架构的核心计算阶段,主要发生在解码器(Decoder)中。在这个阶段,模型会通过多个 Transformer 块(block)进行处理。每个块的核心计算步骤是注意力机制(Attention),这也是 Transformer 架构中计算量最大的部分。
在注意力机制的计算中,输入的词向量会被转换为查询(Query, Q)、键(Key, K)和值(Value, V)矩阵。这些矩阵通过一系列线性变换和点积计算,最终生成注意力权重,用于加权求和得到上下文相关的向量表示。虽然具体的 QKV 矩阵计算过程较为复杂,但大家只需要了解其基本原理即可:通过 QKV 矩阵的计算,模型能够捕捉输入序列中不同词之间的依赖关系。
这一注意力计算过程是整个大模型推理中最耗费计算资源的部分,也是当前大型语言模型推理过程中的核心瓶颈。随着模型规模的增大,注意力机制的计算复杂度呈指数级增长,因此优化这一步骤的计算效率成为了提升模型性能的关键。
在完成注意力机制的计算后,模型会生成一个向量,这个向量表示当前用户输入的 prompt 与下一个 token(next
token)之间的概率分布。通常通过采样(sampling)方法,从这一概率分布中选择最合适的 token 作为输出。
- Greedy Sampling(贪心采样):直接选择概率最高的 token 作为输出。这种方法生成的结果最为确定,但可能缺乏多样性。
- Temperature Sampling(温度采样):通过调整温度参数,改变概率分布的平滑度。较低的温度会使模型更倾向于选择概率最高的 token,而较高的温度会增加随机性,使生成结果更具创造性。
- Top-K Sampling:从概率分布中选择前 K 个最可能的 token,然后从中随机选择一个作为输出。这种方法在保持一定多样性的同时,限制了低概率 token 的干扰。
- Top-P Sampling:根据累积概率选择 token,确保选择的 token 集合覆盖一定比例的总概率(如 P=0.9)。这种方法在保持多样性的同时,避免了极端低概率的 token。
通过这些采样方法,模型可以从概率向量中选择最合适的 token 作为输出。
通过这三个步骤(Embedding、Attention计算、Sampling),模型可以逐步生成下一个 token。虽然整个过程在逻辑上并不复杂,但实际计算量和模型参数量非常庞大,带来了诸多挑战,包括计算资源的消耗、推理速度的优化以及生成结果的控制等问题。
2. LLM 优化技术
在自回归模型的计算过程中,核心问题集中在 QKV 矩阵的计算上。当用户输入一系列 prompt 后,模型会逐步生成下一个词。在这个过程中,我们发现已经有很多词的计算结果是重复的。那么,是否可以引入一些优化方法来减少重复计算呢?
一个有效的优化方式是使用 KV Cache(键值缓存)。其核心思想是:如果某些词的计算结果已经被处理过,我们可以将这些结果缓存起来,避免重复计算。这种优化思路类似于计算机领域中常见的“空间换时间”策略——通过存储已计算的结果,减少后续计算的时间消耗。
具体来说,使用 KV cache 后,原本需要进行向量与矩阵的复杂计算,可以简化为向量与向量的简单计算。这种优化能够显著减少计算量,从而提高模型的运行效率。
在优化大模型推理过程中,除了使用 KV cache 来减少计算量外,还存在一些其他挑战,例如显存占用问题。由于 KV
cache 会占用大量显存,尤其是在多用户并发使用的系统中,可能会导致显存碎片化或资源分配不均等问题。
为了解决这些问题,一种重要的优化技术是 Page Attention。它借鉴了操作系统中的分页机制,将原本占用大块显存的 KV
cache 分割成多个小的 page(页),从而将虚拟显存转化为物理显存的分片形式。这种分片技术可以显著降低显存的占用,并提高显存的利用率。引入 Page Attention 技术后,除了优化显存管理外,还可以进一步引入并行算法,从而对大模型的推理性能产生非常积极的影响。
在实际应用中,大模型的推理任务通常需要处理多个并发请求,而不是为单个请求或应用服务。传统的并行处理方式(如静态批处理)存在“长尾问题”,即整个处理过程的结束时间取决于耗时最长的任务序列。这种情况下,会导致大量计算资源的浪费,降低整体效率。
为了解决这一问题,持续批处理(Continuous Batching)技术应运而生。其核心逻辑非常简单,主要通过动态调整任务的分配和执行顺序,来优化并行推理的效率。其核心逻辑是基于自回归模型的特性,即每次只预测下一个 token。由于这一特性,推理过程可以动态地进行任务切换和资源优化。当一个序列已经推理完成时可以从队列中将其剔除换一个新的 Request 进行处理。通过动态切换任务,持续批处理能够最大化利用显卡的计算能力。每个计算单元在大部分时间内都处于工作状态,从而显著提升系统的吞吐量和资源利用率。
在优化大模型推理的过程中,推测采样(Speculative Decoding 或 Speculative Sampling)是另一种重要的技术,旨在通过引入一个小模型(draft model)来减少大模型(target model)的计算负担,从而提升推理效率。
- 小模型(Draft Model):作为“学生”,负责初步推理。
- 大模型(Target Model):作为“老师”,负责最终决策。
- 输入的 prompt 首先交给小模型进行初步推理。
- 小模型生成初步结果后,大模型会对这些结果进行评估,决定是否接受(accept)或回滚(rollback)。
- 如果大模型接受小模型的结果,推理过程继续;如果不接受,则回滚到之前的步骤,重新生成。
- 由于小模型的计算量较小,推理速度更快,因此核心的推理过程主要在小模型中完成。
- 大模型仅在必要时介入,减少了其推理次数,从而显著提升了整体推理效率。
- 提升推理速度:通过减少大模型的计算量,显著缩短了推理时间。
- 降低计算成本:小模型的计算资源需求较低,能够有效降低硬件成本。
- 效果可能退化:由于小模型的能力有限,生成的结果可能不如大模型精确,导致最终效果有所下降。
- 复杂性增加:需要同时管理小模型和大模型的协作,增加了系统的复杂性。
由于 Speculative Decoding 可能会造成模型能力的退化,是一种权衡(trade-off)。需要从业务出发考虑看能不能带来真正的价值。
在讨论大模型的推理优化时,我们不仅需要关注模型的基本原理(如 Transformer架构和自回归结构),还需要了解实际应用中的推理引擎和优化手段。
Transformers 是一个广泛使用的开源框架,主要用于加载和推理各种大模型。它的优势在于:
- 兼容性强:几乎所有新开源的模型都会首先适配 Transformers,用户可以轻松加载和查看模型的架构。
- 灵活性高:通过 Transformers,用户可以快速支持各种新模型。
然而,Transformers 的局限性也很明显:
- 性能优化不足:Transformers 的设计初衷是适配模型,而非专注于推理性能优化。因此,它在并行计算、显存管理等方面的表现相对较弱。
- 吞吐率较低:由于缺乏针对推理优化的技术(如 Page Attention、持续批处理等),Transformers 的推理吞吐率无法满足高性能需求。
为了解决 Transformers 的性能问题,一些专门针对大模型推理优化的框架应运而生。这些框架的核心目标是通过引入先进的优化技术,提升推理的吞吐率。
vLLM:vLLM 是最早支持 Page Attention 的框架之一。Page Attention 通过将显存分片为多个小页(page),动态管理显存资源,从而减少显存碎片和浪费。
SG-Lang:SG-Lang 是另一个专注于提升吞吐率的框架。它通过优化显存管理和并行计算,进一步提升了推理效率。
TensorRT-LLM(英伟达):TensorRT-LLM 是英伟达推出的高性能推理框架,专门针对大模型进行优化。它结合了英伟达的硬件加速技术(如 TensorRT),能够充分利用 GPU 的计算能力。
目前,许多高性能推理框架(如 vLLM、SG-Lang 和 TensorRT-LLM)都或多或少依赖于英伟达的硬件和软件生态。英伟达的 GPU 和 TensorRT 技术为这些框架提供了强大的计算支持,使得它们能够在高性能推理任务中表现出色。
在实际应用中,大模型的推理需求不仅限于服务器端的高性能计算,还包括个人电脑、端侧设备(如笔记本电脑、嵌入式设备)以及基于 CPU 的推理场景。为了满足这些多样化的需求,诞生了一些专注于端侧推理的框架。
LLAMA
CPP:LLAMA CPP 是一个专注于在端侧设备上运行大模型的框架。它通过优化 CPU 推理,使得大模型能够在资源有限的设备上高效运行。
MLX(Apple):MLX 是苹果公司推出的推理框架,专门为 macOS 设备优化。它利用苹果的 Metal 图形框架,充分发挥 macOS 设备的 GPU 和 CPU 计算能力。
这些引擎通常更专注于单一实例的优化,即如何高效利用单张 GPU 或 CPU 的计算资源来提升推理性能。在单个实例中实现更高的吞吐率或更低的延迟。然而,这些引擎较少关注服务级或平台级的需求。
在使用大模型时,模型的权重是必不可少的组成部分。权重决定了模型的实际行为,而不仅仅是模型的结构。然而,在 Transformers 框架中,用户只能看到模型的结构(如矩阵和张量的形状),而无法直接获取权重数据。因此,用户需要通过专门的托管平台下载模型的权重,以便在本地或服务器上进行推理。Hugging Face、ModelScope 和摩乐社区等托管平台为 LLM 推理提供了丰富的模型选择和便捷的下载服务。Hugging Face 适合需要多样化选择的用户,而 ModelScope 和摩乐社区则通过本地化服务和网络优化,解决了国内用户在下载过程中可能遇到的网络问题。用户可以根据自身需求选择合适的平台,以确保推理过程的顺利进行。
在进行推理时,我们会遇到多种模型的选择。您可能会倾向于使用千问模型,或者选择智谱的 GLM 4 等新兴模型,市场上的模型种类繁多。这些模型中,有些是用于自然语言处理的,比如将文本转换为向量的 Embedding 模型,以及在召回过程中对向量进行重排序的 Rerank 模型,以便将更重要的结果放在前面。
除了这些,AI 领域还有其他模型,比如用于生成图像的 Stable Diffusion 模型,以及用于视频处理的 CogVideo 模型。此外,许多用户正在尝试将语音识别和合成技术融入他们的应用中,这进一步增加了模型的种类和数量,使得处理这些问题变得非常复杂。
在国内,这种现象可能更为明显。我们面临的硬件环境高度分散,国际上可能以英伟达和 AMD 等品牌为主,而国内则有多种国产芯片,如昇腾、海光、沐曦、天数、寒武纪等。这种硬件的多样性使得我们面临的是一个高维度的现状,需要在众多引擎、模型权重下载源、模型种类和数量中做出选择。
面对如此多的可能性,我们如何将注意力集中在业务上,更有效地解决业务问题,而不是被这些高维的模型问题所困扰?关键在于如何选择合适的模型组合,以及如何在多样化的硬件环境中优化性能,从而让我们能够专注于业务本身,而不是被底层的技术细节所分散注意力。
面对模型的复杂性,Xinference 旨在解决这些问题,包括个人和企业部署两个层面。
个人层面:在个人层面上,例如在 Mac 上,Xinference 已经能够很好地优化模型的所有过程,用户可以轻松地对模型进行推理和优化。
企业部署层面:当模型部署到企业端时,会面临更多的挑战。例如,企业不可能仅用一张显卡来推理模型,通常会涉及到多张显卡的模型调度问题。此外,如果某张显卡出现问题,或者用户提交了某些内容,我们需要考虑模型的可观测性,包括标记数据以适配后续微调、观测整个链路等。这些都是重要的考量因素。
在实际落地到生产环境时,服务不能停机,因此需要考虑如何进行无缝迁移和高效运维。同时,资源利用也是一个问题,如何在各种资源上高效地运行服务,尤其是当涉及到多个模型组合时。
此外,计算过程中发现 prompt 的重复率很高,可能会涉及到思维链等操作,这就需要在各个实例之间进行 KV
cache 的缓存管理。同时,还需要考虑安全账号审计和监控等问题。
从个人到生产环境,部署问题层出不穷,这些都是 Xinference 希望帮助大家解决的问题。
Xinference:企业级推理和部署
Xinference 针对个人层面和企业级层面,采取不同的策略。
Xinference 的核心目标是帮助解决与大模型及其整个生态链中的模型相关的核心问题,其开源版本能够很好地应对这些挑战。
首先,Xinference 支持众多模型,用户可以在 experience 界面上看到其已经适配了大量模型,只需点击鼠标即可加载这些模型。其次,支持多种硬件平台,包括英伟达、英特尔和 AMD 等。第三,引入了多后端支持,用户可以自由切换引擎,同时,在引擎层面进行了额外优化,以提高性能,满足推理过程中对吞吐量和延迟等性能指标的要求。第四,Xinference 致力于降低用户使用门槛,已经与 Model Scope、Hugging Face、ModelScope、魔乐等多个平台进行了集成,用户可以根据自己的网络情况选择从哪个平台下载模型。
与市场上同类产品相比,Xinference 具备诸多优势。除了支持大模型本身的引擎外,还增强了分布式能力,并支持更多类型的模型,包括向量模型、多模态模型以及音视频模型等。
Xinference 作为一个模型部署和推理的平台,承担着支持AI应用开发的重要任务。今年 AI 领域一个显著的趋势是,开发者可以选择不同的平台来实现他们的应用。例如,可以使用 Dify 的 workflow 来构建应用,或者选择其他任何顺手的工具。但无论选择哪种工具,底层都离不开大模型推理的过程。
Xinference 已经构建了一个丰富的生态系统,当前主流的四个 RAG 工具:Dify、FastGPT、MaxKB 和 RagFlow 都内置了对 Xinference 的支持。在这些工具中,Xinference 是唯一支持所有特性的模型供应商。
Xinference 平台内置了大量模型,这是其一大特色,所有主流模型都能在 Xinference 中得到支持。此外,还提供了丰富的 Embedding 模型和 Rerank 模型,用户可以根据自己的需求选择最适合的场景。用户只需在 Xinference 界面上进行模型替换,无需修改代码或使用工具。
我们还特别加强了对图像和音视频模型的支持,使得用户可以便捷地使用 Sense Voice 进行语音识别,或者使用 Whisper 等工具。这些功能都在 Xinference 中得以实现。例如,用户可以使用千问 2.5 进行推理,然后将结果用于TTS生成,可以选择使用 ChatTTS、CosyVoice 等工具。整个过程在 Xinference 中进行将非常流畅,可以很好地满足企业级需求。
Xinference 中的 dashboard 设计非常直观,用户可以在这里轻松选择和管理模型分类。其中一个非常实用的特性是支持模型注册,这意味着即使某些模型不在官方支持的列表中,用户也可以通过注册的方式将其加入到系统中。这是一种基础用法。还有很多用户利用注册自定义模型的功能来管理内置模型的各种版本。例如,我们内置了千问 2.5 模型,有的用户会注册自定义模型,虽然实质上也是千问 2.5,但他们会注册不同的配置项,将其作为一个新的模型版本来管理。这种用法是我们没有预料到的,它展示了用户在Xinference 平台上的多样化实践。
Xinference 的核心优势在于确保与 OpenAI 的 SDK 完全兼容。然而,OpenAI 本身支持的模型种类并不丰富。例如,OpenAI 不支持 Rerank 模型。此外,OpenAI 可能只支持 Whisper,或者其 API 可能没有覆盖到 TTS 等其他功能。在这种情况下,我们会扩展 OpenAI 的 API,以支持更多的特性。
用户可以使用 Xinference 客户端,或者直接调用 REST API,在其熟悉的编程语言中编写相应的代码。这样,即使 OpenAI 的 API 没有覆盖到某些功能,用户也可以通过 Xinference 来实现这些功能。
Xinference 集成了所有 AI 开发工具。无论是国际上常用的 Langchain、llama_index,还是国内的 Dify,FastGPT、chatchat,以及之前提到的 MaxKB 和 RagFlow,Xinference 都是它们内置的模型推理平台。因此,使用各种 AI 框架,都可以轻松选择 Xinference 作为应用开发框架。
这样做的好处是,即使在企业内部有多个团队使用不同的工具,也可以将 Xinference 作为 AI 的基础设施,我们称之为中台。这样,可以很好地管理和整合整个集群的资源,并在上层按需提供相应的 AI 工具,以实现场景的落地。
同时,Xinference 平台也进行了大量集成和封装,这对整个系统的架构也有很大的帮助。它不仅能够支持多样化的 AI 框架,还能作为一个统一的平台,简化资源管理和工具整合,使得企业能够更加高效地部署和管理AI应用。
Xinference 的核心能力之一是其分布式架构。一方面,我们希望方便用户有效地使用模型。另一方面,如之前提到的,各种引擎主要关注如何在单一计算资源中发挥最大效能。但在实际应用场景中,我们面临的是多种模型、不同引擎和后端的复杂情况,可能需要使用不同的资源。
Xinference 的分布式架构能够让用户轻松管理集群。对于同一模型,还提供了多副本能力。例如,如果使用的是千问 2.5 的 72B 版本,可能需要四张显卡来推理这个模型。在 Xinference 中,可以设置两个副本,每个副本使用四张显卡,这样就可以用八张显卡的资源提供双倍吞吐量和一半延迟的服务。
如果涉及到分布式计算,Xinference 可以提供集群功能,管理分布式资源。这在企业版中将展现更多高级功能,以满足企业级用户的需求。我们进行了一些基础的 Benchmark 测试。例如,在单机上进行 scale up 时,可以看到吞吐量翻倍提升,并且延迟成倍降低。
在多机环境下进行 scale out 时,Xinference 也能够非常好地提供扩展能力。这些主要是 Xinference 开源部分的功能,通过这部分功能,用户已经能够很好地对主流模型进行推理,并将其转化为优质的服务。它可以连接各种应用,并且可以与多种 AI 开发框架连接,方便用户进行开发。
Xinference 平台主要提供开源部分,通过这部分,用户已经能够很好地对当前主流的模型进行推理,并将其转化为优质的服务。它可以连接各种应用,并且可以与多种 AI 开发框架连接,使得开发工作变得非常方便。然而,正如前面提到的,用户可能会面临许多企业级的问题,Xinference 企业版可以为大家提供更好的解决方案。
在开源版本的能力基础之上,企业版还提供了许多额外的能力,包括经过优化的引擎和一些企业级功能,比如批处理能力。有客户在白天需要处理大量实时任务,因为有大量线上请求,而在晚上会进行数据标注或其他批处理任务。如何利用批处理能力,以及强大的底层调度能力,来高效地完成批处理任务,这是企业版所关注的重点。
企业版还支持国产 GPU,包括深腾、海光等,提供了全面的国产 GPT 支持。用户可以通过 Xinference 企业版很好地管理异构计算资源。
在模型管理方面,提供了私有模型的下载服务。在高可用性方面,企业版可以完成更多的工作,包括自动节点恢复、无缝迁移,并提供全面的监控指标,包括链路指标、集群指标和模型指标等。企业版还提供了更好的运维和服务,以满足企业中的使用需求。
上图展示了 Xinference 企业版的微调能力,用户可以非常方便地指定自己的数据集,然后直接一键进行微调。同时,微调后的模型也可以一键上线,立刻开始提供推理服务,整个过程非常便捷。
除了企业版,我们还提供了一个云上的版本,即 https://inference.top。通过这个平台,用户可以直接以云服务的方式注册账号,使用一个token在本地使用各种模型。我们已经为大家托管了内置模型,并完成了运维等各项工作。因此,用户可以直接通过 inference.top 提供的服务进行使用。
云端版本完美兼容 Xinference 生态,这意味着用户可以在不同的AI开发工具中直接配置并使用云端模型。例如,在 Dify 中,可以直接配置成 Xinference 的云端模型,从而开箱即用各种模型,无需关心模型的管理和运维工作。同样,在 RAGFlow 中,也可以直接配置使用我们云端的模型。
下面介绍一下近期在企业版和云上版本中提供的新能力,即 SD(Stable Diffusion)能力。之前大家常用的两个 SD 工具是 SD Web UI 和 ComfyUI,但这两个工具的核心问题是它们主要是为个人用户设计的,其定位是帮助个人用户利用自己的显卡运行文生图等流程。
然而,如果需要为公司内部的几十个设计师或团队提供服务,可能需要为每个人配备 AI 工作站,这实际上是非常不经济的,而且资源隔离和共享也做不好。我们提供了一个 serverless 的 SD Web UI服务,不久后还将提供 ComfyUI 服务。核心在于我们将这两个软件进行了剥离:保留了用户界面,但重写了底层架构,使其能够将计算任务打到 Xinference 企业版或云端版本,实现更好的资源管理。
这样,我们内部可以高效地复用显卡和各种模型,实现多人同时共享多个 SD 节点。实际上背后是一套无服务的系统,可以方便地供文生图等领域使用。
这里分享一个混合部署的重要案例,是部署在国产芯片和英伟达芯片的环境中。这也是国内一个非常典型的现状,许多企业都拥有这两种硬件,关键的挑战在于如何同时管理和利用这两种硬件,让业务团队无需感知底层硬件的差异。
我们在这方面做了大量的工作,以满足混合部署的需求。难点在于底层硬件对整个系统的要求非常高。我们利用多年的分布式能力,通过 Xinference 企业版的 Xoscar 算力调度解决了这一问题。实现了在金融等场景中,能够高效地混合调度国产芯片和英伟达芯片,让用户更专注于业务价值。
Xinference 企业版提供了统一的异构算力推理服务,支持多厂商、多型号 GPU/NPU(包括国产)异构算力的同时调度。智能调度算法优化了算力资源配置,可提高资源利用率,并按需扩展算力资源,针对不同场景动态配置基础算力。
第二个案例是关于构建企业私有化的 AI 平台。这个平台包括模型使能平台,可以向上提供知识库、Agent 以及提示词管理等能力。在底层,管理用户的微调大模型,包括微调过程以及引入 RAG 和 Agent 等结构。同时,通过 Xinference 还可以将已有模型也纳入管理。
此外,最新提供的 SD(Stable Diffusion)能力,使用户能够为内部设计师提供统一的文生图使用工具。这样,企业可以为设计师提供一个集中的平台,用于文生图的创作和管理。
未来展望
展望未来,我们希望 O1 系列模型,即那些用于 post-train(训练后)或推理时计算的结构,能在开源版本中得到更好的支持。
另外,企业版和云上版本会增加更多功能。首先,我们已经发布了 SD Web UI 的功能,接下来的目标是推出 ComfyUI,这将允许多人共享一个 ComfyUI 界面。在底层,将提供一个 serverless 的 Comp UI 服务,同时完全复用与 SD Web UI 相同的内核。其次,我们计划提供一个实时 API(Realtime API),以实现端到端的语音能力。这意味着为用户提供从语音输入到语音输出的完整解决方案,增强 AI 模型在语音处理方面的应用能力。另外,还会加强可观测性、高级调度、异构计算以及模型的优化。
总而言之,我们将进一步增强开源版本的能力,并在企业版和云上版本中提供更为丰富的特性,以满足不同用户的需求。