我要投稿

GPUStack：一个开源 GPU 集群管理器，用于运行大型语言模型 (LLM)。

发布日期：2024-08-13 07:38:33 浏览次数： 2829

作者：Halo咯咯

微信搜一搜，关注“Halo咯咯”

01。

概述

GPUStack，一个用于运行大型语言模型（LLMs）的开源GPU集群管理器。尽管LLMs作为公共云服务广泛可用，但组织机构难以轻松地托管自己的LLM部署以供私有使用。它们需要安装和管理复杂的集群软件，如Kubernetes，然后弄清楚如何在其上安装和管理AI工具栈。流行的本地运行LLMs的方式，如LMStudio和LocalAI，仅在单机上工作。

GPUStack允许您从Apple MacBook、Windows PC和Linux服务器中的任何品牌的GPU创建统一的集群。管理员可以从如Hugging Face这样的流行仓库部署LLMs。开发者随后可以像访问OpenAI或Microsoft Azure等供应商提供的公共LLM服务一样轻松地访问LLMs。

02。

为什么用GPUStack？

当前，希望在GPU服务器集群上托管大型语言模型（LLMs）的组织必须进行大量工作来集成复杂的软件栈。通过使用GPUStack，组织不再需要担心集群管理、GPU优化、LLMs干扰引擎、使用和计量、用户管理、API访问和仪表板用户界面。GPUStack是一个完整的软件平台，用于构建您自己的大型语言模型即服务（LLMaaS）。

正如下图所示，管理员可以从HuggingFace等仓库部署模型到GPUStack，然后开发者可以连接到GPUStack，在他们的应用程序中使用这些模型。

03。

特性

GPU集群搭建与资源整合

GPUStack能够整合集群内所有GPU资源。它旨在支持包括Nvidia、Apple、AMD、Intel、Qualcomm等在内的所有GPU厂商。GPUStack与运行MacOS、Windows和Linux的笔记本电脑、台式机、工作站和服务器兼容。

GPUStack的初始版本支持配备Nvidia显卡的Windows PC和Linux服务器，以及Apple Mac。

模型部署与推理

GPUStack支持在GPU机器集群上分布式部署和推理LLMs。

GPUStack为在特定GPU上运行给定的LLM选择最佳的推理引擎。GPUStack支持的第一个LLM推理引擎是LLaMA.cpp，这使得GPUStack能够支持来自Hugging Face的GGUF模型以及ollama库（ollama.com/library）中列出的所有模型。

您可以通过先将模型转换为GGUF格式并上传至Hugging Face或Ollama库，在GPUStack上运行任何模型。

其他推理引擎的支持，如vLLM，已列入我们的开发路线图，并将在将来提供。

注意：GPUStack将自动调度您选择的模型在具有适当资源的机器上运行，免除您的手动干预。如果您想评估所选模型的资源消耗，可以使用我们的GGUF Parser项目：https://github.com/gpustack/gguf-parser-go。我们计划在未来提供更详细的教程。

尽管推荐使用GPU加速进行推理，我们还支持CPU推理，尽管性能不如GPU。或者，使用GPU和CPU混合进行推理可以最大化资源利用率，这在边缘或资源受限的环境中特别有用。

与您的应用程序轻松集成

GPUStack提供与OpenAI兼容的API，并提供LLM游乐场以及API密钥。游乐场使AI开发者能够试验并自定义您的LLMs，并无缝地将它们集成到AI应用程序中。

此外，您可以使用GPUStack提供的指标来了解您的AI应用程序如何利用各种LLMs。这有助于管理员有效管理GPU资源消耗。

GPU和LLMs的可观测性指标

GPUStack提供全面的指标，用于性能、利用率和状态监控。

对于GPU，管理员可以使用GPUStack监控实时资源利用率和系统状态。基于这些指标：

管理员执行扩展、优化和其他维护操作。
GPUStack调整其模型调度算法。

对于LLMs，开发者可以使用GPUStack访问诸如令牌吞吐量、令牌使用情况和API请求吞吐量等指标。这些指标帮助开发者评估模型性能并优化其应用程序。GPUStack计划在未来版本中根据这些推理性能指标支持自动扩展。

认证和访问控制

GPUStack还为企业提供了认证和基于角色的访问控制（RBAC）。平台上的用户可以拥有管理员或常规用户角色。这保证了只有授权的管理员才能部署和管理LLMs，只有授权的开发者才能使用它们。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-07-05

用友毕思建：客户成功AI落地模型HERO正式发布

2025-07-04

最全的Ollama使用详解

2025-07-04

Serverless JManus: 企业生产级通用智能体运行时

2025-07-04

Kimi深度研究 vs. OpenAI / Gemini Deep Research：文献综述哪家强？（实测对比）

2025-07-04

大模型开源，厂商靠什么盈利？

2025-07-04

构建AI Agents-你一定要知道的10大开源利器

2025-07-03

阿里发布信息检索Agent，可自主上网查资料，GAIA基准超越GPT-4o | 模型&数据开源

2025-07-03

OpenAI首席研究官没有博士学位，你的985还有用吗？

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

看大厂PM，如何玩转多个智能体开发平台

2025-06-17

53AI Hub重磅开源！让99%的智能体开发者赚到钱！

2025-06-17

15个最佳开源 RAG 框架选型指南

2025-04-13

源神降临！阿里 Qwen3 全系发布，免费商用，消费级显卡就能跑！(深度解读 + 实战case)

2025-04-29

OpenAI学院：人工智能领头羊自己下场做课了

2025-04-12

一文看懂谷歌 A2A：它到底是个啥？为什么能带AI Agent 组队开黑？

2025-04-10

Qwen3中性能最强MOE模型部署抛砖引玉 + 实测

2025-04-29

手搓Manus？MCP 原理解析与MCP Client实践

2025-04-15

阿里Qwen3正式发布：最小6亿参数，叫板Gemini-2.5Pro

2025-04-29

刚刚，DeepSeek开源新版R1，媲美OpenAI最高o3模型

2025-05-29

大家都在问

大模型开源，厂商靠什么盈利？

2025-07-04

OpenAI首席研究官没有博士学位，你的985还有用吗？

2025-07-03

卷疯了！这个清华系Agent框架开源后迅速斩获1.9k stars，还要“消灭”Prompt？

2025-06-28

从 MCP 谈起，到底什么才是 AI Native 产品？

2025-06-25

中国AI Agent市场最终会变成一地鸡毛吗？

2025-06-25

如何使用 Agno 构建一个基础的 AI 智能体？

2025-06-21

开源AI工具Magentic UI，凭什么让你的工作效率提升300%？

2025-06-16

如何用Gradio搭建一个完整的AI产品功能？

2025-06-15

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

友情链接：

CopyRight © 2012-2024 深圳市博思协创网络科技有限公司版权所有

粤ICP备17114055号

广州：广州市华景路37号(华景软件园)暨南大学科技大厦6楼（整层）

深圳：深圳市福田区泰然四路29号天安创新科技广场一期A座1204

上海：上海市浦东新区金新路58号1602室

微信扫码
和创始人交个朋友

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部