AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


基础篇| 大模型部署框架

发布日期:2024-09-25 22:29:31 浏览次数: 2013 来源:程序猿阿三


为什么要有大模型部署框架?
为什么有了推理框架,还要来一个什么部署框架?上节内容我们介绍了有12种大模型推理框架,虽然多,但是现在业界尚不存在各方面都远超其同类产品的推理框架,不同推理引擎在不同平台,硬件和模式下分别具有各自的优势,比如TensorRT有足够多的灵活性,在GPU执行时可以共享上下文,可以使用外部内存用于推理等,OpenVINO有高吞吐率模式,可以CPU与GPU异构设备同时推理。作为应用开发者,为了实现最优效率,如果针对不同环境都写一套代码去适配其最优推理框架,其耗费的学习成本和精力及代码量都将极其巨大。
这时候有大模型部署框架用武之地,大模型部署框架作为一种高效、灵活的部署方式,能够大大提高模型训练和部署的效率,降低模型在部署过程中的时间和成本。

02 部署框架对比

模型部署框架XinferenceLocalAIOllamaFastChat
OpenAI API 接口对齐支持支持支持支持
加速推理引擎GPTQ, GGML, vLLM, TensorRT, mlxGPTQ, GGML, vLLM, TensorRTGGUF, GGMLvLLM
接入模型类型LLM, Embedding, Rerank, Text-to-Image, Vision, AudioLLM, Embedding, Rerank, Text-to-Image, Vision, AudioLLM, Text-to-Image, VisionLLM, Vision
Function Call支持支持支持/
更多平台支持(CPU, Metal)支持支持支持支持
异构支持支持//
集群支持支持//
操作文档链接https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.htmlhttps://localai.io/model-compatibility/https://github.com/ollama/ollama?tab=readme-ov-file#model-libraryhttps://github.com/lm-sys/FastChat#install
可用模型支持上百种大模型,https://inference.readthedocs.io/zh-cn/latest/models/builtin/index.htmlhttps://localai.io/model-compatibility/#/https://ollama.com/library#/https://github.com/lm-sys/FastChat/blob/main/docs/model_support.md

03 总结

从支持模型数量,以及各种特性来看, xinference框架特性最全,支持模型最多, 从易用性来说, ollama绝对适用于一些初学者
有了部署框架,对LLM一知半解的后端人员也能轻易部署LLM模型,不需要深入了解每个模型.

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询