支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


Xinference:一种创新的推理框架

发布日期:2025-04-14 05:09:29 浏览次数: 1551 作者:哈尔小文
推荐语

Xinference:探索AI推理的新境界,高效管理模型,优化性能,满足企业级需求。

核心内容:
1. 模型全生命周期管理与100+开源模型支持
2. 多推理引擎优化与硬件平台广泛兼容
3. 企业级特性,包括权限管理、批处理、国产GPU支持等

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

功能特点详解

FeatureXinferenceFastChatOpenLLMRayLLM
OpenAI-Compatible RESTful API
vLLM Integrations
More Inference Engines (GGML, TensorRT)
More Platforms (CPU, Metal)
Multi-node Cluster Deployment
Image Models (Text-to-Image)
Text Embedding Models
Multimodal Models
Audio Models
More OpenAI Functionalities (Function Calling)

1. ‌全面且高效的模型管理

Xinference提供了模型全生命周期管理功能,从模型导入、版本控制到部署上线,一切尽在掌握。此外,它还支持100+最新开源模型,涵盖文本、语音、视频以及embedding/rerank等多个领域,确保用户能够快速适配并使用最前沿的模型。

2. ‌多推理引擎与硬件兼容

为了最大化推理性能,Xinference优化了多种主流推理引擎,包括vLLM、SGLang、TensorRT等。同时,它还广泛支持多种硬件平台,无论是国际品牌还是国产GPU(如华为昇腾、海光等),都能实现无缝对接,共同服务于AI推理任务。

3. ‌高性能与分布式架构

借助底层算法优化和硬件加速技术,Xinference实现了高性能推理。其原生分布式架构更是如虎添翼,支持水平扩展集群,轻松应对大规模数据处理需求。此外,多种调度策略的应用使得Xinference能够灵活适应低延迟、高上下文、高吞吐等不同场景。

4. ‌丰富的企业级特性

除了强大的推理能力外,Xinference还提供了众多企业级特性以满足复杂业务需求。这包括用户权限管理、单点登录、批处理、多租户隔离、模型微调以及全面的可观测性等。这些特性使得Xinference在保障数据安全与合规性的同时,也大大提升了业务运营的效率与灵活性。

开源版本

企业版和开源版本的对比

功能企业版本开源版本
用户权限管理用户权限、单点登录、加密认证tokens 授权
集群能力SLA 调度、租户隔离、弹性伸缩抢占调度
引擎支持优化过的 vLLM、SGLang、TensorRTvLLM、SGLang
批处理支持大量调用的定制批处理
微调支持上传数据集微调
国产 GPU 支持昇腾、海光、天数、寒武纪、沐曦
模型管理可私有部署的模型下载和管理服务依赖 modelscope 和 huggingface
故障检测和恢复自动检测节点故障并进行故障复位
高可用所有节点都是冗余部署支持服务高可用
监控监控指标 API 接口,和现有系统集成页面显示
运维远程 cli 部署、不停机升级
服务远程技术支持和自动升级服务社区支持

主流引擎

安装所有

pip install "xinference[all]"

Transformers 引擎

pip install "xinference[transformers]"


vLLM 引擎

pip install "xinference[vllm]"

Llama.cpp 引擎

pip install xinference
pip install xllamacpp --force-reinstall --index-url https://xorbitsai.github.io/xllamacpp/whl/cu124
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python

SGLang 引擎

pip install "xinference[sglang]"

MLX 引擎

pip install "xinference[mlx]"

运行方式

本地运行

conda create --name xinference python=3.10
conda activate xinference                                                                                   #启动命令
xinference-local --host 0.0.0.0 --port 9997
#启动模型命令
xinference engine -e http://0.0.0.0:9997 --model-name qwen-chat
#其他参考
xinference launch --model-name <MODEL_NAME> \
                  [--model-engine <MODEL_ENGINE>] \
                  [--model-type <MODEL_TYPE>] \
                  [--model-uid <MODEL_UID>] \
                  [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

集群中部署

#启动 Supervisor 用当前节点的 IP 来替换 `${supervisor_host}`。
xinference-supervisor -H "${supervisor_host}"
#启动 Worker
xinference-worker -e "http://${supervisor_host}:9997" -H "${worker_host}"

启动完成可以在 http://${supervisor_host}:9997/ui 访问 web UI,在 http://${supervisor_host}:9997/docs 访问 API 文档。

使用 Docker 部署

#在拥有英伟达显卡的机器上运行
docker run -e XINFERENCE_MODEL_SRC=modelscope -p 9998:9997 --gpus all xprobe/xinference:<your_version> xinference-local -H 0.0.0.0 --log-level debug
#在只有 CPU 的机器上运行
docker run -e XINFERENCE_MODEL_SRC=modelscope -p 9998:9997 xprobe/xinference:<your_version>-cpu xinference-local -H 0.0.0.0 --log-level debug

模型能力全解析

核心功能模块

  1. 聊天 & 生成

  • ‌大语言模型(LLM)

    • 内置模型‌:支持 Qwen、ChatGLM3、Vicuna、WizardLM 等主流开源模型,涵盖中英文及多语言场景‌。

    • 长上下文处理‌:优化高吞吐量推理,支持超长文本对话、代码生成及复杂逻辑推理‌。

    • 函数调用‌:为 Qwen、ChatGLM3 等模型提供结构化输出能力,支持与外部 API 交互(如天气查询、代码执行),赋能智能体开发‌。

  1. 多模态处理

  • ‌视觉模块‌

    • 图像生成‌:集成 Stable Diffusion 等模型,支持文本到图像生成‌。

    • 图文理解‌:通过多模态大模型(如 Qwen-VL)实现图像描述、视觉问答等任务‌。

  • ‌音频模块

    • 语音识别‌:支持 Whisper 模型,实现语音转文字及多语言翻译‌38。

    • 语音生成(实验性质)‌:探索文本到语音(TTS)能力,支持自定义音色生成‌。

  • ‌视频模块(实验性质)

    • 视频理解‌:基于多模态嵌入技术解析视频内容,支持片段检索与摘要生成‌。

  1. 嵌入 & 重排序

  • ‌嵌入模型

    • 文本/图像向量化‌:支持 BGE、M3E 等模型,生成跨模态统一语义向量‌。

    • 应用场景‌:优化搜索、推荐系统的召回精度,支持混合模态检索‌。

  • ‌重排序模型

    • 精细化排序‌:通过交叉编码器优化检索结果排序,提升 Top-K 准确率‌。


内置模型清单

模型类型代表模型关键特性
大语言模型Qwen-72B、ChatGLM3-6B、Vicuna-7B支持函数调用、长上下文、多轮对话
嵌入模型BGE-Large、M3E-Base跨模态语义对齐、低延迟推理
图像模型Stable Diffusion XL、Qwen-VL文生图、图像描述、视觉问答
音频模型Whisper-Large、Bark(实验)语音识别、多语言翻译、TTS生成
重排序模型bge-reranker-large动态调整检索结果排序
视频模型CLIP-ViT(实验)视频内容解析、跨模态检索

核心优势

  • 性能优化‌:通过 vLLM、SGLang 等引擎实现低延迟推理,吞吐量提升 2-3 倍‌。

  • 企业级支持‌:支持分布式部署、国产硬件适配及模型全生命周期管理‌。

  • 生态兼容‌:无缝对接 LangChain、LlamaIndex 等开发框架,加速 AI 应用构建‌。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询