我要投稿

K8S低成本AI推理方案

发布日期：2024-04-12 21:31:33 浏览次数： 2590

作者：大魏分享

微信搜一搜，关注“大魏分享”

最新发现一个很不错的开源工具，可以帮助我们降低深度学习推理的成本。

Karpenter是一个用于Kubernetes集群的节点自动配置工具，它通过AKS Karpenter Provider在AKS集群上启用节点自动配置功能。Karpenter的主要功能包括监控Kubernetes调度器标记为不可调度的Pods，评估Pods请求的调度约束（资源请求、节点选择器、亲和性、容忍性和拓扑扩散约束），根据这些约束配置满足要求的节点，并在这些节点不再需要时移除它们。此外，Karpenter还能够将现有节点整合到更便宜、利用率更高的节点上。

使用场景方面，Karpenter适用于需要动态调整Kubernetes集群资源配置的场景，特别是在工作负载变化较大、需要频繁调整节点配置以适应不同工作负载需求的环境中。例如，对于需要根据实际使用情况自动扩展或缩减节点数量的应用，Karpenter可以自动化这一过程，提高资源配置的灵活性和效率。

总的来说，Karpenter是一个强大的工具，能够帮助用户更高效、更经济地管理Kubernetes集群的资源配置。

在AKS的深度学习推理中，我们可以用SpotVM当成AKS的worker节点。

我们知道Azure SpotVM的成本相对正常的SKU低很多，但有被驱逐的风险。有了Karpenter后，我们有两种方案。

1.把多个SpotVM作为AKS的worker node，然后针对GPU推理的K8S SVC在多个worker node上创建多个副本，那么即使一个worker node被驱逐，业务也不受影响；如果能承受短时可能的短暂的业务中断，一个pod也可以，Karpenter发现worker节点被驱逐，能将pod在其他节点重启。多pod副本需要使用SVC和K8S的ingress。

2.创建多个Node pool，其中一个node pool使用spotvm，另外一个nodepool可以使用正常的GPU VM。然后针对不同的nodepool设置不同的weight。这样GPU pod的deployment就会先选择weight高的pool进行部署。

参照如下链接部署好一个支持Karpenter的AKS。

https://learn.microsoft.com/en-us/azure/aks/node-autoprovision?tabs=azure-cli

然后创建一个GPU pod的deployment，初始副本数设置为1：

xinyu [ ~ ]$ kubectl get deployment

NAME          READY   UP-TO-DATE   AVAILABLE   AGEsamples-gpu   0/1     1            0           2m24s

此时Azure开始创建spot gpu vm，如下所示：

xinyu [ ~ ]$ kubectl get nodeclaims.karpenter.sh

NAME             TYPE                       ZONE              NODE   READY   AGEgpu-spot-57p8w   Standard_NC24ads_A100_v4   southeastasia-2          False   2m18s

xinyu [ ~ ]$ kubectl describe deployment samples-gpu

Name:                   samples-gpuNamespace:              defaultCreationTimestamp:      Sun, 24 Mar 2024 02:06:56 +0000Labels:                 app=samples-tf-mnist-demoAnnotations:            deployment.kubernetes.io/revision: 1Selector:               app=samples-tf-mnist-demoReplicas:               1 desired | 1 updated | 1 total | 0 available | 1 unavailableStrategyType:           RollingUpdateMinReadySeconds:        0RollingUpdateStrategy:  25% max unavailable, 25% max surgePod Template:Labels:  app=samples-tf-mnist-demoContainers:samples-tf-mnist-demo:Image:      mcr.microsoft.com/azuredocs/samples-tf-mnist-demo:gpuPort:       <none>Host Port:  <none>Args:--max_steps50000Limits:nvidia.com/gpu:  1Environment:       <none>Mounts:            <none>Volumes:             <none>Conditions:Type           Status  Reason----           ------  ------Available      False   MinimumReplicasUnavailableProgressing    True    ReplicaSetUpdatedOldReplicaSets:  <none>NewReplicaSet:   samples-gpu-95b9c58b6 (1/1 replicas created)Events:Type    Reason             Age    From                   Message----    ------             ----   ----                   -------Normal  ScalingReplicaSet  2m42s  deployment-controller  Scaled up replica set samples-gpu-95b9c58b6 to 1

大约2-3分钟，查看AKS节点，已经多个一个GPU VM。

xinyu [ ~ ]$ kubectl get nodes

NAME                                STATUS   ROLES   AGE   VERSIONaks-gpu-spot-57p8w                  Ready    agent   33s   v1.27.9aks-nodepool1-34768744-vmss000000   Ready    agent   54m   v1.27.9aks-nodepool1-34768744-vmss000001   Ready    agent   54m   v1.27.9aks-nodepool1-34768744-vmss000002   Ready    agent   54m   v1.27.9

xinyu [ ~ ]$ kubectl get pods

NAME                          READY   STATUS    RESTARTS   AGEsamples-gpu-95b9c58b6-nbg8g   1/1     Running   0          4m10s

登录pod，查看其中的GPU资源：

xinyu [ ~ ]$ kubectl exec -ti samples-gpu-95b9c58b6-nbg8g -- /bin/sh

可以看到是一个A100

xinyu [ ~ ]$ kubectl get deployment

NAME          READY   UP-TO-DATE   AVAILABLE   AGEsamples-gpu   1/1     1            1           4m56s

将GPU Pod的副本数增加为2：

xinyu [ ~ ]$ kubectl scale deployment samples-gpu --replicas=2

deployment.apps/samples-gpu scaled

xinyu [ ~ ]$ kubectl get deployment

NAME          READY   UP-TO-DATE   AVAILABLE   AGEsamples-gpu   1/2     2            1           7m28s

过了1-2分钟，增加完毕：

xinyu [ ~ ]$ kubectl get deployment

NAME          READY   UP-TO-DATE   AVAILABLE   AGEsamples-gpu   2/2     2            2           11m

再次查看AKS节点，又多了一个GPU VM。

xinyu [ ~ ]$ kubectl get nodes

NAME                                STATUS   ROLES   AGE    VERSIONaks-gpu-spot-57p8w                  Ready    agent   10m    v1.27.9aks-gpu-spot-p9vh8                  Ready    agent   3m1s   v1.27.9aks-nodepool1-34768744-vmss000000   Ready    agent   63m    v1.27.9aks-nodepool1-34768744-vmss000001   Ready    agent   63m    v1.27.9aks-nodepool1-34768744-vmss000002   Ready    agent   63m    v1.27.9

查看karpenter对应的三个CRD：

xinyu [ ~ ]$ kubectl get crd |grep -i kar

aksnodeclasses.karpenter.azure.com               2024-03-24T01:18:01Znodeclaims.karpenter.sh                          2024-03-24T01:18:01Znodepools.karpenter.sh                           2024-03-24T01:18:01Z

查看karpenter claim的节点，有两个：

xinyu [ ~ ]$ kubectl get nodeclaims.karpenter.sh

NAME             TYPE                       ZONE              NODE                 READY   AGEgpu-spot-57p8w   Standard_NC24ads_A100_v4   southeastasia-2   aks-gpu-spot-57p8w   True    15mgpu-spot-p9vh8   Standard_NC24ads_A100_v4   southeastasia-2   aks-gpu-spot-p9vh8   True    8m11s

此时查看Azure VM，有两个GPU SpotVM：

将deployments副本数设置为0，AKS会剔除对应节点，Azure也会删除GPU SpotVM。

xinyu [ ~ ]$ kubectl scale deployment samples-gpu --replicas=0

deployment.apps/samples-gpu scaled

xinyu [ ~ ]$ kubectl get deployment

NAME          READY   UP-TO-DATE   AVAILABLE   AGEsamples-gpu   0/0     0            0           26m

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2024-07-10

科研助力神器：Scholar GPT，百倍提升你的研究效率！

2024-07-09

Doc2X：一款功能超级强大的文档解析与转换工具

2024-07-06

我对多智能体协作过程自动演化架构设计

2024-07-06

可穿戴AI，底层逻辑的变化

2024-07-06

一文彻底搞懂Transformer - Word Embedding（词嵌入）

2024-07-06

AI动态 | 腾讯元宝AI搜索能力升级：深度搜索模式上线

2024-07-06

智能手表 + AI ，都已经这么智能了？？

2024-07-06

死磕10万卡GPU算力集群，腾讯星脉网络2.0有什么秘密武器？

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

阿里Qoder vs Trae vs Cursor：谁才是2025年程序猿的效率之王？

2025-09-07

从需求场景出发的AI应用项目落地方法论

2025-09-19

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

新版 GPT-5 刚刚发布，最卷 AI 连肝代码 7 小时，编程工具大洗牌开始了

2025-09-16

AI大家说 | 下一代AI创业的机会在哪里？定价趋势是什么？

2025-09-08

阿里发布下一代企业级智能体开发框架AgentScope 1.0

2025-09-17

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

Qwen3-Coder与Claude Code深度对比：谁是你的AI编程助手？

2025-09-14

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

大家都在问

200 美元，一天干完半年活：这个新出的AI科学家，是来砸博士生饭碗的吗？

2025-11-27

如何通俗的理解AI Agent的工作流？

2025-11-27

为什么大模型在企业落地那么难？

2025-11-25

Palantir牵手Snowflake，我们能学到什么？

2025-11-25

仅凭几张图片，我们是如何让 AI 自动生成 70% 可用前端代码的？

2025-11-25

彻底搞懂 A2A 是什么、和 MCP 的区别、前身和与未来趋势、对打造 Agent 产品的影响？

2025-11-23

RAG知识库迎来大洗牌：GraphRAG如何让机器真正读懂世界？

2025-11-23

再谈RAG的文档解析——文档解析的难点在哪里？

2025-11-20

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB