GPUStack:一个开源 GPU 集群管理器,用于运行大型语言模型 (LLM)。
发布日期:2024-08-13 07:38:33
浏览次数: 1872
来源:Halo咯咯
01。
概述
GPUStack,一个用于运行大型语言模型(LLMs)的开源GPU集群管理器。尽管LLMs作为公共云服务广泛可用,但组织机构难以轻松地托管自己的LLM部署以供私有使用。它们需要安装和管理复杂的集群软件,如Kubernetes,然后弄清楚如何在其上安装和管理AI工具栈。流行的本地运行LLMs的方式,如LMStudio和LocalAI,仅在单机上工作。GPUStack允许您从Apple MacBook、Windows PC和Linux服务器中的任何品牌的GPU创建统一的集群。管理员可以从如Hugging Face这样的流行仓库部署LLMs。开发者随后可以像访问OpenAI或Microsoft Azure等供应商提供的公共LLM服务一样轻松地访问LLMs。02。
为什么用GPUStack?
当前,希望在GPU服务器集群上托管大型语言模型(LLMs)的组织必须进行大量工作来集成复杂的软件栈。通过使用GPUStack,组织不再需要担心集群管理、GPU优化、LLMs干扰引擎、使用和计量、用户管理、API访问和仪表板用户界面。GPUStack是一个完整的软件平台,用于构建您自己的大型语言模型即服务(LLMaaS)。正如下图所示,管理员可以从HuggingFace等仓库部署模型到GPUStack,然后开发者可以连接到GPUStack,在他们的应用程序中使用这些模型。03。
特性
GPUStack能够整合集群内所有GPU资源。它旨在支持包括Nvidia、Apple、AMD、Intel、Qualcomm等在内的所有GPU厂商。GPUStack与运行MacOS、Windows和Linux的笔记本电脑、台式机、工作站和服务器兼容。GPUStack的初始版本支持配备Nvidia显卡的Windows PC和Linux服务器,以及Apple Mac。GPUStack支持在GPU机器集群上分布式部署和推理LLMs。GPUStack为在特定GPU上运行给定的LLM选择最佳的推理引擎。GPUStack支持的第一个LLM推理引擎是LLaMA.cpp,这使得GPUStack能够支持来自Hugging Face的GGUF模型以及ollama库(ollama.com/library)中列出的所有模型。您可以通过先将模型转换为GGUF格式并上传至Hugging Face或Ollama库,在GPUStack上运行任何模型。其他推理引擎的支持,如vLLM,已列入我们的开发路线图,并将在将来提供。注意:GPUStack将自动调度您选择的模型在具有适当资源的机器上运行,免除您的手动干预。如果您想评估所选模型的资源消耗,可以使用我们的GGUF Parser项目:https://github.com/gpustack/gguf-parser-go。我们计划在未来提供更详细的教程。尽管推荐使用GPU加速进行推理,我们还支持CPU推理,尽管性能不如GPU。或者,使用GPU和CPU混合进行推理可以最大化资源利用率,这在边缘或资源受限的环境中特别有用。GPUStack提供与OpenAI兼容的API,并提供LLM游乐场以及API密钥。游乐场使AI开发者能够试验并自定义您的LLMs,并无缝地将它们集成到AI应用程序中。此外,您可以使用GPUStack提供的指标来了解您的AI应用程序如何利用各种LLMs。这有助于管理员有效管理GPU资源消耗。GPUStack提供全面的指标,用于性能、利用率和状态监控。对于GPU,管理员可以使用GPUStack监控实时资源利用率和系统状态。基于这些指标:对于LLMs,开发者可以使用GPUStack访问诸如令牌吞吐量、令牌使用情况和API请求吞吐量等指标。这些指标帮助开发者评估模型性能并优化其应用程序。GPUStack计划在未来版本中根据这些推理性能指标支持自动扩展。GPUStack还为企业提供了认证和基于角色的访问控制(RBAC)。平台上的用户可以拥有管理员或常规用户角色。这保证了只有授权的管理员才能部署和管理LLMs,只有授权的开发者才能使用它们。
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业