我要投稿

基础篇| 大模型部署框架

发布日期：2024-09-25 22:29:31 浏览次数： 2082 作者：程序猿阿三

为什么要有大模型部署框架?

为什么有了推理框架，还要来一个什么部署框架？上节内容我们介绍了有12种大模型推理框架，虽然多，但是现在业界尚不存在各方面都远超其同类产品的推理框架，不同推理引擎在不同平台，硬件和模式下分别具有各自的优势，比如TensorRT有足够多的灵活性，在GPU执行时可以共享上下文，可以使用外部内存用于推理等，OpenVINO有高吞吐率模式，可以CPU与GPU异构设备同时推理。作为应用开发者，为了实现最优效率，如果针对不同环境都写一套代码去适配其最优推理框架，其耗费的学习成本和精力及代码量都将极其巨大。

这时候有大模型部署框架用武之地，大模型部署框架作为一种高效、灵活的部署方式，能够大大提高模型训练和部署的效率，降低模型在部署过程中的时间和成本。

02 部署框架对比

模型部署框架	Xinference	LocalAI	Ollama	FastChat
OpenAI API 接口对齐	支持	支持	支持	支持
加速推理引擎	GPTQ, GGML, vLLM, TensorRT, mlx	GPTQ, GGML, vLLM, TensorRT	GGUF, GGML	vLLM
接入模型类型	LLM, Embedding, Rerank, Text-to-Image, Vision, Audio	LLM, Embedding, Rerank, Text-to-Image, Vision, Audio	LLM, Text-to-Image, Vision	LLM, Vision
Function Call	支持	支持	支持	/
更多平台支持(CPU, Metal)	支持	支持	支持	支持
异构	支持	支持	/	/
集群	支持	支持	/	/
操作文档链接	https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.html	https://localai.io/model-compatibility/	https://github.com/ollama/ollama?tab=readme-ov-file#model-library	https://github.com/lm-sys/FastChat#install
可用模型	支持上百种大模型，https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.html	https://localai.io/model-compatibility/#/	https://ollama.com/library#/	https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

03 总结

从支持模型数量,以及各种特性来看, xinference框架特性最全,支持模型最多, 从易用性来说, ollama绝对适用于一些初学者。

有了部署框架,对LLM一知半解的后端人员也能轻易部署LLM模型,不需要深入了解每个模型.。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-27

一文了解Text Embedding模型：从text2vec、openai-text embedding到m3e、bge（上）

2025-04-27

RollingAI创始人刘开出席2025年中国绿公司年会，解读AI商业化落地新思维

2025-04-27

一文讲透 MCP 与 Function calling，你想看的都在这里

2025-04-27

混合专家 (MoE) 架构：现代大模型的“秘密武器”

2025-04-27

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

大模型应用系列：两万字解读MCP

2025-04-27

一篇文章说清楚什么是生成式AI、决策式AI、判别式AI

2025-04-27

字节Trae 大更新，5分钟看懂AI生成的“神秘代码块”

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

本地部署大模型？看这篇就够了，Ollama 部署和实战

2024-08-13

16个具有“联网搜索”功能的AI：总有一个适合你！

2024-06-13

Cursor 一个真正让程序员产生危机感的 AI 编程工具

2024-08-21

OpenAI o1与GPT4o的对比分析

2024-09-23

大模型｜“上下文长度”和“上下文窗口”不再傻傻分不清楚！

2024-07-31

一文带你了解大模型——智能体（Agent）

2024-05-28

50+个AI大模型在不同领域的应用案例

2024-08-04

全面对比dify、coze、streamlit、chainlit

2024-04-26

【深度】AI搜索产品深度分析-搜索原理和商业模式分析

2024-07-09

一文读懂OpenAI新发布o1系列大模型

2024-09-17

大家都在问

一文了解：大模型 Agent 开发框架有哪些？它们的区别是什么？

2025-04-27

为什么一定要做Agent智能体？

2025-04-25

除了MCP我们还有什么？

2025-04-24

LLM 推理引擎之争：Ollama or vLLM ?

2025-04-24

专题策划（下）| 如何实现大模型与行业的深度耦合？

2025-04-23

OpenAI：就你们也配做智能体？

2025-04-23

白话解析 DPO：如何让 AI 直接学习人类偏好？

2025-04-22

独家｜百度上线“心响”App，平替版Mauns来了？

2025-04-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部