我要投稿

10万元跑满血版DeepSeek，这家公司掀了一体机市场的桌子｜甲子光年

发布日期：2025-04-29 19:32:51 浏览次数： 1527 作者：甲子光年

DeepSeek一体机，能满足的不止再是情绪价值了。

作者｜王艺

编辑｜王博

「甲子光年」今日获悉，行云集成电路推出了全新的一体机产品“褐蚁”，仅需10万元就可以跑满血版DeepSeek R1/V3大模型（下文简称“满血版DS”），并且对话速度达到了20token/s。这意味着一家中型企业仅需一辆家用轿车的成本，即可部署接近实验室级的大模型生产力工具。

“褐蚁”一体机有三款不同的配置，分别是主打极致性能的褐蚁HY90、主打极致性价比的褐蚁HY70和主打超低价格的褐蚁HY50。本次正式面向市场的产品是褐蚁HY90，它由双路AMD EPYC 9355服务器、24条 48G 6400M频率内存和5090D计算卡构成，支持FP8、INT4两种数据精度，在FP8精度下跑满血版DS能达到21token/s的对话速度，在INT4精度下则能达到28token/s，最高支持128K的上下文。除了DeepSeek R1/V3，褐蚁还支持嵌入向量和重排序模型，以及Gemma多模态模型等。

日前随着美国对华芯片禁运和海外代工的收紧，一体机的价格水涨船高，市场的话语权也掌握在拥有芯片和技术资源的大厂手里。而行云集成电路（下文简称“行云”）褐蚁一体机的推出，或许意味着一体机市场的算力垄断将被打破，技术平权的崭新浪潮即将到来。

1.“掀桌子”式的奇袭

DeepSeek一体机“狂飙”数月，入局的玩家越来越多，除了服务器和云厂商，做软件的、做安全的……只要是和科技沾边的行业，都有公司推出一体机。（详见《爆火的DeepSeek一体机，更多满足的是情绪价值｜甲子光年》）。

然而，当下的一体机市场存在严重的供需错配情况：一体机厂商推出的能跑满血版的产品价格至少100万元起步，面向的是有支付能力的买家；而市场上真正有支付能力的企业并不多，大部分企业的预算集中在10-50万元区间，这个预算只能买到70B或32B版本的DS一体机。而在近日的中美关税争端下，美国商务部对英伟达的H20、AMD的MI308及其同类AI芯片产品向中国发布新的出口许可要求，搭载了H20芯片一体机的价格更加昂贵，对买家来说更不友好；

即使部分厂商针对那些预算有限的企业推出了几十万元的低价一体机，看似提供了全链路的模型管理、数据处理和权限控制方案，但是这些多是在攒了一些硬件之后，对dify、Langchain、Milvus等框架的UI进行表面调整，在底层架构优化上毫无改进，没有核心的调度能力，也无法灵活接入其他的主流模型，使得产品在实际使用中问题频出；

「甲子光年」了解到，很多买了10万元左右价位一体机的公司在开箱后发现只能跑INT4精度的数据，DS运行速度极慢，一个字一个字地往外蹦；还有些买了蒸馏版模型一体机的厂商遇到了幻觉严重的问题，比如在知识库的文字分段上，会把专业名词“阿莫西林”切割成“阿莫”和“西林”，严重干扰了业务的正常运转。

而行云的褐蚁一体机，相较于百万元级别一体机的优势在于价格足够优惠——仅需14.9万元，就可以在褐蚁HY90上以FP8精度运行满血版的DeepSeek大模型；行云也在努力寻找硬件配置和用户体验的平衡点，在保证满血版DeepSeek模型在FP8精度上打到20token/s体验的前提下，进一步压缩硬件成本。

案例可以说明这一点：

将“一个汉字具有左右结构，左边是木，右边是乞。这个字是什么?只需回答这个字即可。”的问题同时输入运行在褐蚁HY90一体机上DeepSeek和DeepSeek官网，我们发现，DeepSeek模型在褐蚁HY90上的运行速度要高于官网，也比官网更先得出答案：

褐蚁一体机与官网推理能力对比测试，左为褐蚁H90，右为DeepSeek官网

在创作场景下，让运行在褐蚁HY90上的DS模型和DeepSeek官网同时回答“简要概述小说《杀死一只知更鸟》的情节，并指出其中的主要主题”，会发现褐蚁HY90比官网更快回答完了问题。

褐蚁一体机与官网推理能力创作能力对比测试，左为褐蚁H90，右为DeepSeek官网

在玩家鱼龙混杂、价格日渐走高的一体机市场，行云此次的产品发布，毫无疑问是一次正本清源的“掀桌子”式奇袭。

2.将“大杀器”卖到10万元的秘密

之所以将运行顶级大模型的成本从百万元级别拉到十万元级，行云凭借的是对技术趋势的深刻洞察和极致的软硬件协同优化。

在DeepSeek大模型的部署中，内存（尤其是显存）是决定模型能否“满血运行”的核心瓶颈。其中，内存容量是决定机器能否装下大模型的门槛，内存带宽则是决定数据吞吐的生死线。

大模型巨大的参数量、自注意力机制和前向传播等特性本来就要求处理器有更高的内存（GPU的显存），DeepSeek R1/V3的MoE架构更是由于需要预先加载所有的专家参数，需要比传统Transformer架构的稠密模型更大的内存容量。

在内存容量方面，我们曾在《爆火的DeepSeek一体机，更多满足的是情绪价值｜甲子光年》中提到，如果要实现在一体机上运行满血版DeepSeek大模型，就必须把参数、配置拉满，起码显存要做到808-846GB，机器才能装得下6710亿参数。

参考资料：IT技术分享-老张，某大厂；制图：甲子光年

在内存带宽方面，DeepSeek每生成一个Token激活的参数大概是37B，这就要求总的内存带宽大概需要740G/s。

一体机60-70%的成本都来自硬件，而硬件成本中的大头则由GPU和CPU占据。过去十年，行业过度追求GPU算力和内存的提升，而忽视了同为核心处理器的CPU。大家认为AI推理，尤其是大模型，似乎天然就该依赖GPU。

但行云发现，技术发展已悄然改变了格局。现在DDR5的频率逐渐达到了6400MHz，更主要的是服务器CPU的内存通道数不断增加，从8通道增加到12通道，如果选择双路就是24通道。这样的双路24通道DDR5-6400内存，总带宽已经达到了1.2TB/s。

这是一个关键的转折点：1.2TB/s的带宽，不仅远超740GB/s的需求线，甚至超过了高端消费级显卡如RTX 4090的显存带宽（约1TB/s）。这意味着，通过精心选择的服务器CPU平台，其DDR内存系统能够同时提供巨大的容量（轻松达到1TB以上）和媲美甚至超越某些高端GPU显存的带宽。

“过去大家对GPU内存（GDDR）的认知是容量小、带宽高，对CPU内存（DDR5/LPDDR5）的认知是便宜、容量大、带宽低。但其实这是过去的认知惯性，在过去多年的技术发展里这件事情已经发生了变化，就是顶级的CPU内存带宽已经超过了4090这样的顶级消费显卡，虽然肯定还是无法和A100这种卡的内存带宽比。但至少已经达到了显存级别的带宽标准。这个认知很重要，因为搭载了这样一个服务器CPU内存总带宽，是完全可以满足运行DeepSeek需求的。” 季宇说。

行云的这一发现为采用CPU内存作为主要载体承载大模型权重（尤其是内存密集型的MoE层）提供了理论基础，可以彻底改变一体机的成本结构。

于是，我们看到，在行云推出的褐蚁一体机HY90中，搭载了双路AMD EPYC 9355服务器CPU（24条容量为48G、带宽为6400M的内存）和英伟达的消费级5090D显卡，CPU内存带宽达到了1228GB/s，CPU内存容量则达到了1152TB。加上GPU的32G显存，不仅满足了满血全精度R1、V3模型的运行需求，理论上主参数1.5T以内的模型也都可以支持，比如今天刚刚发布的Qwen3和DeepSeek即将发布的R2模型。

但硬件谁都可以攒。褐蚁一体机“物美价廉”的第二个秘诀，是软件和算法的优化。

2025年2月10日，由清华大学KVCache.AI团队与趋境科技联合发布了KTransformers推理框架。该架构基于Python架构设计，通过异构计算、量化优化和稀疏注意力机制等一系列技术，大幅降低了大模型的硬件门槛——相较于Python，KTransformers更加灵活和轻量化，能够适应一体机需要的GPU/CPU优化策略。

通过这些技术的组合应用，KTransformers能够实现将原本需要8张高端GPU卡才能运行的大模型在单张消费级GPU上运行，且推理速度不减反增。例如一个130亿参数的模型，在传统实现下需要超过26GB显存，而通过KTransformers优化后，仅需6-8GB显存就能流畅运行，甚至能在普通的游戏笔记本上部署。

可以说，KTransformers为想做一体机推理优化的团队提供了一个灵巧的“脚手架”，而行云就是最早看到这个“脚手架”并将其完美利用的团队之一。基于KTransformers，行云推出了全新的自研推理引擎，将MoE层的token延迟从超过30ms（毫秒）降低到了18ms（INT4精度下），后续支持了原版FP8精度，将单个Token的生成速度控制在了50ms以内。

然而，这绝非简单的“拿来主义”。基于KTransformer，行云团队重写了几乎每个底层算子，对计算流程、内存访问模式等做了深度改造和优化，不仅可以跑FP8精度的模型，也极大提升了用户体验。如果说KTransformers解决了如何利用CPU的内存在单张GPU上把模型跑起来的问题，那么行云解决的核心，就是如何将物理内存带宽尽可能多地转化为大模型实际使用的有效带宽。

这种对带宽的极致追求体现在对每个计算环节的毫秒级优化上。季宇特别提到了混合专家模型（MoE）层——这是一个典型的内存带宽密集型计算场景，以Q4KM格式（INT4）为例，在KT的实现中, 每Token时间中MoE部分需要超过30ms, 但理论值只需要13ms，而行云将其优化到了约18ms。

“在INT4精度下，MoE层处理一个token大约需要30多毫秒，而根据CPU实测带宽理论计算，大约只需要13毫秒。而我们一步步将这个时间优化到了18毫秒，非常接近理论极限，”季宇说，“换成FP8精度，这里的时间又要翻倍，为了达到足够好的体验，每一毫秒都要争取。”

生成token所用市场与TPS关系制图：甲子光年

这也是褐蚁一体机将满血版大模型的运行效率从行业平均水平的20token/s提升到接近30token/s的原因（每减少1ms的Token生成时间，TPS可提升约1个，如从20ms优化到19ms，TPS从50升至52.6）。

褐蚁一体机测试数据图源：行云集成电路

对内存瓶颈的深刻理解、对DDR内存潜力的挖掘利用、以及对推理引擎近乎重写的极致优化——这三者的结合，共同构成了褐蚁的核心竞争力，这也是行云能将“褐蚁一体机”这款颠覆行业的“大杀器”卖到10万元的秘密。

3.从“褐蚁”到“蚁群”

“褐蚁”一体机的推出，仅仅是行云“技术平权”愿景的第一步。

行云本身是一家芯片设计公司，未来他们计划推出自研的GPU/AI加速卡，搭载到即将面世的褐蚁HY70和褐蚁HY50上，这是性价比更高的一体机解决方案。

季宇表示，未来，行云也将进一步提升单机的并发处理能力，目前正在将10台褐蚁HY90一体机做简单负载均衡，可以支持20个有效并发，与单台八卡141G版本H20一体机的并发数相当。但十台褐蚁HY90的价格约为150万元，有实力与H20一体机五五开平分市场。

此外，行云还有更加激进的、由30台褐蚁一体机组成的“蚁群”方案，可以发挥分布式系统的进一步优化能力，支持500-1000的有效并发数，而价格只有300-400万元。该方案对标的是H200集群——目前单台H200一体机跑满血版大模型的并发数约为50左右，但是单价约为250万元一台，10台H200一体机的集群价格达到了2000万元，远高于行云30台“分布式蚁群”的价格。

“DeepSeek私有化部署并不是百万成本的东西，”季宇表示，“把门槛降到十万价位，很多原来没有需求、甚至没想过可能性的用户和场景就能被打开了。”

刘慈欣在《三体》中写道：“褐蚁和蜘蛛不知道，在宇宙文明公理诞生的时候，除了那个屏息聆听的遥远的世界，仅就地球生命而言，它们是仅有的见证者。”

在那宏大的宇宙图景中，微小的褐蚁也能见证宇宙公理的诞生，而行云对其一体机的命名也正是来源于此。他们希望一体机能像宇宙中的“褐蚁”一样，撬动被高成本束缚的大模型落地应用市场，让前沿AI技术不再是少数巨头的专属，而是能真正赋能千行百业的普惠工具。

或许正如大刘的隐喻，AI普惠的钥匙，不在垄断者的保险箱里，而在每一份微小却极致的技术突破中。

（封面图来源：AI工具生成）