推荐语
探索AI产品部署新方案,降低硬件成本,优化资源利用。
核心内容:
1. 私有化部署AI产品的优势与挑战
2. KTransformer算法原理及其优化能力
3. KTransformer在不同场景下的实际应用与限制
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
最近,我调研了下我身边的产品经理,发现真的在做AI的同学非常非常少,而在做AI的同学,公司都是使用API的形式。
而我认为,有做AI产品的模型知识库与训练,技术人员都会建议做私有化部署才能够真的算是做AI产品,但这却需要公司出资源的。并且光有硬件还不够,还要求团队的开发也能够配合进行支持,能够落地这方面AI技术框架。这样才能够保证AI模型的下载到模型管理工具的下载部署都可以实现。Ktransformer的算法,简单来说就是降低了显存的使用,将模型的计算放在了CPU与内存上。正如前文所说, KTransformers 最主要的设计目标就是实现一套易用的基于模板规则的注入框架,让多种算子层面的优化可以很容易的被整合进一个 deployment-ready 的引擎中去,从而方便在不同环境下做测试和验证。本文将分别通过 MoE,多卡,按需 CPU offload 三种场景对 KTransformers 的这项能力进行详细的介绍。
总的来说KT大大减少显存的利用,类似DEEPSEEK一样,让其开发者可以满血版部署更低的显存,不再过于依赖高显存的显卡。在我们运行KT的时候,作为产品经理,我发现其目前还有几个缺点,不过马上就要解决了,如果你打算用来做产品建设,可以悉知。现在KT只能进行单个用户使用,如果多个用户调用就会需要排队,这就类似ofo退款押金的形式。产品经理势必要增加排队机制,但在AI功能使用上,我们并发是指的是同一时间段,对于非AI的产品,其数据接受到数据反馈的时间往往都是毫秒类完成,而在AI产品,因为涉及到每一次AI任务或许会涉及到联网搜索或者其他能力(解压软件、office、编译软件)。因此发起一个AI推理任务,就像Manus那样一个任务可能几个小时或者几十分钟。因此如果考虑到agent的情况下,KT不是最佳的方式。因为现在不支持并发,如果不考虑到agent的情况下,KT还是算一个不错的解决方案,尤其是适合团队内部或者小微企业。前段时间我看到理想投资的一个子品牌栖息地,提到了可以为家庭制造一个私有化的AI部署。相较于现在用的小爱同学、天猫精灵,栖息地提供的家庭AI是完全私有化的,完全属于个人,并且栖息地只提供系统与硬件维护。而KT显然就适合这类场景,不仅是用户并发少,而且还建设成本低。比如在医院里面虽然我们看到有几千员工,但是医护人员能够同时使用AI功能的情况让他们同时在电脑上是用医疗系统,就是非常少了。而几十万用户要想都用AI功能更难,因为就像我之前说的,那些功能都不是所有都需要AI,只有部分功能需要AI,因此AI单个功能模块的高并发使用并没有那么长。KTansformer是一个非常好的解决方式,既可以避免高度的价格使用,同时又能够保证使用满血大模型。毕竟大部分的医护人员都是忙的不可开交没有时间用电脑。所以,对比采用上百万AI算力的服务器做辅助决策,还是需要几万的就可以完成的满血DEEPSEEK,KT作为后者就非常香了。现在KT马上也要迎来新的更新,致力于做并发的模型,也就是允许多个人使用KT,在这个星期就会更新。当然据目前可靠的消息,KT并发仍然会有使用的人越多,越来越慢的情况,但是相比之前的版本,KT可以2个人以上用了。我在加入之后,深刻感受到有非常多的技术人关注KT,从AR眼镜到脑机接口,正式因为这个原因,KT让4090价格涨价了,因为大部分人都可以花费几万块钱的成本,得到满血性能。我们在买显卡的时候,供应商提到现在4090的显卡价格一天一个价,几乎和挖矿那个时间一样了。而KT的模型,让很多中小企业可以有机会部署自己的大模型,自然就会有大量的4090的型号购买,而不是A100或H100的显卡需求了。从大厂出来的产品经理,包括在大厂在职的产品经理,现在AI上发力很困难。主要原因是大厂这类科技公司都将AI资源是以云资源给团队去用,也就是API的形式,建设了类似数据中台的统一管理。加上现在非常尴尬的出入产出比(AI现在几乎都是亏钱),股东会难以统一太多的投入,并且AI相关的项目都要Python语言,而这对于以前的科技公司来说是比较尴尬的,因为几乎这方面的人才相当少。所以,你会发现大厂类科技公司的产品经理去梳理所需要的相关资源,那么传统软件公司就太难了,想调用AI资源也都会鼓励用API的形式(因为大厂都有自己的云服务器),而真的想自己做AI部分,是必须要有AI算力服务器的,才能够说训练与算法。所以科技公司包括是大厂的开发方式在AI时代就显得跟不上了,因为人才结构以及所需要的硬件资源都发生了根本性变化。