我要投稿

聊下我们4090 单卡24GB 部署DEEPSEEK 满血版的Ktransformer

发布日期：2025-03-20 04:58:06 浏览次数： 1676 作者：Kevin改变世界的点滴

最近，我调研了下我身边的产品经理，发现真的在做AI的同学非常非常少，而在做AI的同学，公司都是使用API的形式。

而我认为，有做AI产品的模型知识库与训练，技术人员都会建议做私有化部署才能够真的算是做AI产品，但这却需要公司出资源的。

并且光有硬件还不够，还要求团队的开发也能够配合进行支持，能够落地这方面AI技术框架。

这样才能够保证AI模型的下载到模型管理工具的下载部署都可以实现。

ktransformer是什么

Ktransformer的算法，简单来说就是降低了显存的使用，将模型的计算放在了CPU与内存上。

正如前文所说, KTransformers 最主要的设计目标就是实现一套易用的基于模板规则的注入框架，让多种算子层面的优化可以很容易的被整合进一个 deployment-ready 的引擎中去，从而方便在不同环境下做测试和验证。本文将分别通过 MoE，多卡，按需 CPU offload 三种场景对 KTransformers 的这项能力进行详细的介绍。

总的来说KT大大减少显存的利用，类似DEEPSEEK一样，让其开发者可以满血版部署更低的显存，不再过于依赖高显存的显卡。

在我们运行KT的时候，作为产品经理，我发现其目前还有几个缺点，不过马上就要解决了，如果你打算用来做产品建设，可以悉知。

1.不支持并发

现在KT只能进行单个用户使用，如果多个用户调用就会需要排队，这就类似ofo退款押金的形式。

产品经理势必要增加排队机制，但在AI功能使用上，我们并发是指的是同一时间段，对于非AI的产品，其数据接受到数据反馈的时间往往都是毫秒类完成，而在AI产品，因为涉及到每一次AI任务或许会涉及到联网搜索或者其他能力（解压软件、office、编译软件）。

因此发起一个AI推理任务，就像Manus那样一个任务可能几个小时或者几十分钟。

因此如果考虑到agent的情况下，KT不是最佳的方式。

因为现在不支持并发，如果不考虑到agent的情况下，KT还是算一个不错的解决方案，尤其是适合团队内部或者小微企业。

2.适合的场景医院、门店、家庭

前段时间我看到理想投资的一个子品牌栖息地，提到了可以为家庭制造一个私有化的AI部署。

相较于现在用的小爱同学、天猫精灵，栖息地提供的家庭AI是完全私有化的，完全属于个人，并且栖息地只提供系统与硬件维护。

而KT显然就适合这类场景，不仅是用户并发少，而且还建设成本低。比如在医院里面虽然我们看到有几千员工，但是医护人员能够同时使用AI功能的情况让他们同时在电脑上是用医疗系统，就是非常少了。

而几十万用户要想都用AI功能更难，因为就像我之前说的，那些功能都不是所有都需要AI，只有部分功能需要AI，因此AI单个功能模块的高并发使用并没有那么长。

KTansformer是一个非常好的解决方式，既可以避免高度的价格使用，同时又能够保证使用满血大模型。

毕竟大部分的医护人员都是忙的不可开交没有时间用电脑。

所以，对比采用上百万AI算力的服务器做辅助决策，还是需要几万的就可以完成的满血DEEPSEEK，KT作为后者就非常香了。

3.KT框架也在升级

现在KT马上也要迎来新的更新，致力于做并发的模型，也就是允许多个人使用KT，在这个星期就会更新。

当然据目前可靠的消息，KT并发仍然会有使用的人越多，越来越慢的情况，但是相比之前的版本，KT可以2个人以上用了。

4.KT是让显卡4090 涨价了

我在加入之后，深刻感受到有非常多的技术人关注KT，从AR眼镜到脑机接口，正式因为这个原因，KT让4090价格涨价了，因为大部分人都可以花费几万块钱的成本，得到满血性能。

我们在买显卡的时候，供应商提到现在4090的显卡价格一天一个价，几乎和挖矿那个时间一样了。

而KT的模型，让很多中小企业可以有机会部署自己的大模型，自然就会有大量的4090的型号购买，而不是A100或H100的显卡需求了。

5.现在大厂在AI的应用层上发不了力

从大厂出来的产品经理，包括在大厂在职的产品经理，现在AI上发力很困难。

主要原因是大厂这类科技公司都将AI资源是以云资源给团队去用，也就是API的形式，建设了类似数据中台的统一管理。

加上现在非常尴尬的出入产出比（AI现在几乎都是亏钱），股东会难以统一太多的投入，并且AI相关的项目都要Python语言，而这对于以前的科技公司来说是比较尴尬的，因为几乎这方面的人才相当少。

所以，你会发现大厂类科技公司的产品经理去梳理所需要的相关资源，那么传统软件公司就太难了，想调用AI资源也都会鼓励用API的形式（因为大厂都有自己的云服务器），而真的想自己做AI部分，是必须要有AI算力服务器的，才能够说训练与算法。

所以科技公司包括是大厂的开发方式在AI时代就显得跟不上了，因为人才结构以及所需要的硬件资源都发生了根本性变化。

好，今天的分享就在这里。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-04-24

方案 | 基于本地大模型开发CAD智能助手

2025-04-24

Fellou AI浏览器体验报告，它是未来AI应用的雏形

2025-04-23

DeepSeek 32B随便跑,万元超值组装AI大模型电脑主机

2025-04-23

扣子空间：当「AI实习生」开始主动对齐，人机协作的「共生进化」和「双向奔赴」

2025-04-21

微软Playwright MCP 服务器为LLM提供浏览器自动化能力

2025-04-21

爆火的扣子空间里，藏着什么秘密？

2025-04-20

Dia之后，Fellou是我非常推荐的又一AI浏览器

2025-04-20

实测扣子刚刚上线的新版扣子空间。自动化解放人类越来越近了。

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

大模型训练及推理【硬件选型指南】及 GPU 通识

2024-05-09

华为昇腾910B与英伟达B200性能对比

2024-07-23

【不看后悔】一文梳理端侧模型和小模型

2024-07-07

一文带你看懂英伟达A100、H100、A800、H800、H20系列

2025-02-12

NVIDIA消费级显卡4060/4090 AI训练能效比较

2024-07-01

对比A100和4090：两者的区别以及适用点

2024-06-24

私有化部署大模型非常重要环节：国产显卡和英伟达显卡到底该如何选择？

2024-06-23

手把手教你免费把AI大模型接入小米音箱，无需任何代码基础，小白级基础详细操作教程！

2024-10-20

小爱音箱大变身：接入 ChatGPT 和豆包，轻松打造专属 AI 语音助手！

2024-06-08

大家都在问

爆火的扣子空间里，藏着什么秘密？

2025-04-21

AI与自动化实战：n8n、Dify、Coze哪个更适合我们？

2025-04-13

经验分享：从买DeepSeek一体机到落地应用场景，有多远的距离？

2025-04-11

理想车载大模型为什么不直接用deepseek？

2025-04-03

JetBrains Junie 内测体验，能否挑战 Cursor？

2025-03-30

Tavily MCP Server深度解析：如何用Cline打造智能搜索神器？

2025-03-28

Claude Desktop- AI大模型+MCP Server结合，能够带给你哪些无限可能？

2025-03-26

罗永浩的AI新战场，能否打破“行业冥灯”魔咒？

2025-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB