支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI 能陪你亲亲热热,多亏了“存储硬汉”输出狠活儿!

发布日期:2025-04-23 14:25:41 浏览次数: 1530 作者:浅黑科技
推荐语

探索AI背后的技术奥秘,揭秘存储技术如何助力AI发展。

核心内容:
1. AI应用为何能提供免费服务的背后逻辑
2. AI厂商如何实现高性价比的技术发展
3. 国产存储技术在AI发展中的关键作用

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家


AI 能陪你亲亲热热,

多亏了“存储硬汉”输出狠活儿!


文 | 史中



(一)AI 凭啥免费给你香香?



你有没有想过,这些国民级的 AI 应用凭啥能免费给你用?


现在咱人均都有四五个“在线卑微”的 AI 秘书。


她们化着淡妆站一排,从“霸王龙怎么搓澡”到“丧尸围城靠一根牙签如何突围”,无论多奇葩的问题,只要你问得出口,她们就必须捏着鼻子答。


而且,豆秘书(豆包)的答案不满意,你扭头就去找 D 秘书(DeepSeek),是一点儿情面都不看,比皇帝选妃还凶残,属实膨胀。


要知道,这些秘书们可都是免费的啊!一个个用爱发电、自带干粮住你家、 24 小时侍寝还被你挑三拣四。


可见 AI 这行有多卷。




当然,免费背后肯定是 AI 厂商在补贴嘛。但这里有个前提:成本不能离谱,太高谁也补不起呀!


AI 厂商的师傅们每天研究一件事儿——怎么高性价比地“开学校”!


教学质量要好:隔三差五把自家模型送学校回炉,争取学完之后色艺双绝,艳压群芳;


学费还得便宜:毕竟就算学出来是学贯中西博古通今的花魁,打工的收入还是辣么微薄。。。


从 2023 年开始,各家 AI 都狂暴地请来更好的名师(算法),研发新的教材(数据),盖更多的教室(GPU),使用更先进的教学管理制度(训练框架),争取让学生们学得又好又快又便宜。




忙活了一两年,赛博世界里一座座崭新的学校挺立,”教学性价比”嗷嗷提升。


够了吗?够了。。。又好像不够。。。


老师傅们不约而同地缓缓移动怀疑的目光。


他们发现,角落里不起眼的“图书馆”。。。仿佛似乎竟然。。。成了支撑 AI “性价比”的一根重要支柱!!!


此时从天空俯瞰,历史恰行至拐点,惊雷炸响,国产存储技术的命运齿轮开始缓缓转动。





(二)建图书馆的“天命人” 



我们开动时光机,去往 2023 年的北京西二旗。


那真是平静的日子,袁清波还有空研究“保温杯里应该泡哪种枸杞”。。。不光是他,整个曙光存储的技术团队都在“泡枸杞”。


澄清一下,不是老师傅集体躺平摸鱼,正相反,他们有点儿“独孤求败”的意思。


这帮师傅就是“图书馆”的施工队。


所谓图书馆,就是——企业级存储系统


那时候,曙光存储系统主要服务于大型的国企央企。这些企业的数据固然很重要,但要求和图书馆类似:存下来,别丢,想要的时候能找出来。


至于一个数据是 0.1 秒找到,还是 0.0001 秒找到,同时能找 10 万条数据还是 100 万条数据,还真没啥极致的讲究。。。


再看袁清波,是中科院计算所的博士后,主攻系统架构,他的很多同事都是中科院师兄弟,放眼全中国这是妥妥的明星阵容。虽说要正心诚意地开发每一代产品,但这个团队多少有点儿“性能过剩”的意思。


灵明石猴栖身花果山,可不是为了量贩吃桃,而是有朝一日成为“天命人”。


这不,2024 年春节刚过,分布式存储产品 ParaStor 的产品经理乔雅楠就找到了袁清波,上来一顿虎狼之词:


“下一代分布式存储产品,能不能把带宽做到 190G 每秒,把 IOPS 做到 500 万?”


先按下暂停键,科普一下。


这句话的意思是说:


1)每秒钟传输的数据量是 190GB,这相当于 38000 张照片。这么说吧,你微信里所有朋友一年的自拍,都能在一秒钟内帮你存好!


2)每秒钟存取的动作能做 500 万次,相当于天南海北的 500 万人同时给你小红书点赞,能在一秒之内一个不差地帮你记录清楚!




不夸张地说,曙光是中国存储产品的扛把子,性能本来就是“姚明级”的。但下一代产品的要求却要比现在翻两番,妥妥是让姚明穿着增高鞋踩高跷蹦起来扣篮。。。


这么强悍的性能,是准备存啥??


咱们继续按下播放键。


袁清波听到这话,并不惊诧,而是 45 度仰天长叹,一副“该来的总算来了”的神情。。。


虽是久居山林的扫地僧,但技术师傅早有耳闻,曙光存储正在和很多头部 AI 厂商勾兑要帮他们的“AI 学校”建“图书馆”。


这里,话头就和最开始接上了:训练个 AI,到底跟图书馆有啥关系嘞?


不妨跟着中哥钻进一座 AI 学校,咱们实地观摩下目前人类最牛的“万亿参数大语言模型”是肿么训练的!


我们先来到教学楼,这里热火朝天,有 1 万间教室,每个教室里都能坐下 1 亿个葫芦娃,他们在一本一本地飞速看书。




每个葫芦娃其实就是 AI 大脑的一个神经元。他们看的书,就是训练语料。


每看一本书,他们都会刷新一次自己对世界的认识,然后改一下手里的参数。




当所有的教材都看完之后,每个葫芦娃手里的最终参数也固定了下来,一万亿个参数汇合在一起,就组成了一个水灵灵的 AI 大秘书!


喂养这么一个怪兽级的模型,大概需要消耗 10PB 的语料。这是多少呢?


换成纸质书有 220 亿本,一本一本竖着放,也能绕地球赤道一圈。比香飘飘还狠。


一万亿个葫芦娃同时看书,场面如风卷残云:


可能这一秒要从图书馆调拨 500 万册语文书;下一秒钟就调拨 500 万册英语书。。。




这时候,压力给到了图书馆,如果供不上这么大的量,那学校只能停课干等,不就浪费了教学资源吗?!


所以,要想支持世界最强 AI 的训练,500 万 IOPS(也就是每秒 500 万次读写)的能力还真就是必须的↓↓↓




即便如此,还远远不够。


AI 学校并不真实,而是在赛博世界里构建的,每间教室其实就是一张显卡。这一万张显卡同时进行巨量又细密的计算,难免会出现 Bug。


这就好像:一万间教室突然有一个停电了,葫芦娃同学一慌,把之前看的书给忘了。。。


这一忘不要紧。因为最终的 AI 秘书由每一个葫芦娃手里的参数所共同支撑,有一个教室的学生学岔劈了,所有教室的学生都得重头再来。


没错,是倒回到新学期第一天,从第一本书开始。。。


就像下图↓↓↓




不用怀疑,现在人类的技术就是这么水。


为了让 AI 好歹能训练完,老师傅摸索出了一个并不优雅的办法:


每隔一段时间,就让所有葫芦娃暂停下,把手里的参数统一抄在本本上,作为一个“检查点”放在图书馆备着。


万一后面哪个教室掉链子,就全体滚回到最近的“检查点”开始,总比从头来要好!


就像酱↓↓↓




这里,压力又给到了图书馆!


检查点包括万亿参数,是一个巨巨巨巨大的文件,最大能到 5TB,相当于 3 套《四库全书》。




图书馆存这么多书,可得要点儿时间呢。。。关键是,如果完成这个存档需要 1 小时,那么下一个存档最早也要 1 小时之后才能开始。


这中间万一学校那边出错了,就相当于一个小时都白学了。一退就退一个钟头,这不又浪费了教学资源吗?!


也许有人觉得,一个小时还好吧。


给你算算,万卡集群的成本是几亿美元,核算折旧,加上电费、人力,每回滚一秒就是上百美元的损失,回滚两分钟就是近万美元的损失,回滚一个小时几十万美元就没了。。。


几十万美元用来买泡面,得吃几辈子呀?!


如果图书馆(存储系统)每秒能存储 190GB,那情况就完全不同了——存完一个 5TB 的检查点只需要 26.32 秒。


这意味着,每分钟都可以存一次档!存两次都行!


这就相当于开挂了呀↓↓↓




OK,科普结束,跳回现实。


乔雅楠粗略算了一下,如果达到每秒 190GB 吞吐能力,500 万 IOPS,对于 AI 厂商来说,每投入 1 快钱在这样的存储上,就能得到 10 快钱的收益。这种“一本十利”的买卖,谁能拒绝呢?


这笔账算完,技术团队的命数就定了——搞得出来要搞,搞不出来也得搞!


此时,镜头缓缓转向对面的袁清波。背景音乐的鼓点儿已经由远及近,保温杯里震起涟漪。。。


生活不止眼前的枸杞,曙光存储团队的师傅们已不再是花果山散仙,而是拯救人工智能于水火的“天命人”。


Mission Accepted!




(三)从头盖一座图书馆 



话说,曙光存储老师傅之所以敢接这么凶残的任务,还有个朴素的原因:当时某顶尖美国存储厂商已经放出风来,他们的下一代产品可以达到 190G 带宽。


呵,都是一个鼻子两个眼,美国人能做出来,中国人做不出来??


原地鼓捣了俩礼拜,技术团队已经非常有信心了:


基于现有的服务器硬件,每秒要吞下 190G,只有一个办法,让电流传输超过光速~~


所以,做不出来。


今天的浅黑故事就到这里,再见。


等等。。。刚才好像有个限定条件:“基于现有的服务器硬件”。


“如果咱自己从头设计一套‘存储专用服务器’,有没有戏呢?”


袁清波被自己的想法吓了一跳。


他们可是软件工程师啊!过去对图书馆做升级,从来都是在既有的房间里改“软装”,现在竟然要把“图书馆本身”推倒重盖,这也太膨胀了。


但老师傅冷静一想,几乎可以肯定:美国同行如果没有推翻相对论,也必须得重新设计服务器。。。至于他们咋设计的,咱也不知道,咱也没法问。。。


然而,既然做了中国存储行业的扛把子,摸石头过河不就是曙光的“天命”吗?!


估计你已经好奇图书馆里是啥样子了。


咱们这就钻进去,和老师傅们一起设计设计。




先介绍主要人物:


书:数据


书架:硬盘


图书管理员:CPU


管理员的桌子:内存


借书还书的窗口:网卡


咱们一步一步来。先讲讲过去“旧图书馆”的样子:


简单说,通用服务器的设计目标不是“图书管理”,而是“算数”。


所以,这里的 CPU 不应叫图书管理员,更应该叫算数员。


只要有题目从窗口进来,算数员就算,算好后返回给窗口。


大多中间步骤数据用完就扔了。只有重要的结果才会归档,所以书架放在旁边即可。


(这里的金色地毯代表硬件通路,数据只能从这里走。)




但是,如果用这个布局直接做图书馆,就有一点儿别扭了。


因为图书馆的管理员没有那么花哨的计算,主要职能就是“搬运”——把从窗口送进来的书籍放到书架上,以及把书架上的书籍送到窗口。


搬运,讲究个丝滑。


大家经常争抢线路,就不好了。




于是咱可以把布局微调,把图书管理员的桌子做大一些,让书架和桌子之间的路宽一些。


这样想要什么书,管理员放在桌子上“滴”一下,就直接送到窗口了。




除了基础布局,额外的通路设计也很有讲究。


袁清波给我举了个例子:


图书馆里其实有两组管理员(两颗 CPU),每组管理员都有距离自己较近的窗口(网卡)、桌子(内存)和书架(硬盘)。




假设:一个找书的需求从窗口 A 进来,可它要找的那本书离 B 组 4 号管理员更近。


那么,B 组 4 号管理员就得先从架子上把书拿下来,放在自己面前的桌子上,A 组再过来一个管理员,绕到 B 桌,把东西拿回来 A 桌,再从 A 窗口送出去。


这会导致一个问题:这本书会有相当一段时间滞留在桌上。




要是只有一本也就罢了。在每秒几百万次的请求中,如果很多书滞留在桌面,就会让桌面空间吃紧。


它们像管道里的淤泥一样,影响整个图书馆的周转速度。




估计你也想到了办法:


如果想办法在这里加几条通道,让 A 桌管理员能更方便地拿到 B 做的东西,不就能大大减少桌面面积(内存)被占用的时间了吗?




以上只是为了画小人方便,把情况进行了极端简化,真实的解决方案并非如此显而易见。


但相信你已经有了感觉:硬件布局通路设计,这两件事儿对整个存储系统的*性能上限*影响巨大。


OK,我们继续回到技术师傅身边。


他们仰头,前面出现三座大山:


第一座,把这个服务器给设计出来;


第二座:说服领导同意用“专用存储服务器”开发下一代存储产品;


第三座:说服工程技术中心把这服务器给造出来。


先搞“第一座山”。


设计硬件,好像就是在纸上画画图,但实际远非这么轻松愉快。一颗 CPU 或者一条内存在某种情况下的具体性能,是很难估算准确的。


要想确切了解,只有把硬件拿来实地测试。


袁清波他们开始搭建环境,一点点儿调整图书馆里“桌椅板凳”的位置和远近。通过观察性能变化,罗列出所有瓶颈,再从所有瓶颈里寻找最“卡脖子”的部分依次解决。


这种微调,很像玩儿华容道,在方寸里里左挪一下右挪一下,每挪一下都牵连到最终结局。


越做实验,袁清波他们就对硬件的脾气越清楚;越清楚,信心就越足。


这些信心在翻越“第二座山”的时候派上了大用。


团队在肝设计方案



老师傅私下憋了很久才敢和领导提出“把图书馆推倒重盖”。


听到这个“非分请求”,领导提出疑问:“新搞一套服务器肯定要成本,团队努努力,还用标准服务器克服一下有没有可能?”


“绝不可能!”袁清波拍案而起。


噗地一声,他从怀里掏出电脑,把最近几个月做的各种实验数据一一列举,跟打辩论一样,摆出了十来条“旧硬件存在物理极限”的证据。


领导还没来得及反应,他又话锋一转:“再说,咱也不是没这个实力!”敲下键盘,肝了几个月搞出来的新服务器设计图出现在屏幕上。


釜底抽薪+贴脸杀,领导好像没有不答应的道理。。。


拿到了金牌令箭,接下来就要挖“第三座山”——找工程技术部商量生产问题。


这是“外交大使”乔雅楠的任务。


工程技术部的同事听明来意,其实有点儿错愕,设计硬件,不是我们的活儿吗?你们咋给干了?


本来愉快地答应就行,但他们发现一些小问题:


存储团队设计的硬件,有很多附加的逻辑和通路,这会提高硬件的制造成本呀!


这些额外的连线,真的有必要吗?


乔雅楠赶紧把测试软件拿来,逐一现场演示这些附加的线路都是干啥用的。工程技术部的师傅们点了点头,随即又摇了摇头:“应该还有性价比更高的设计方法吧?”


他们说得有道理,但现实情况是门外的 AI  客户已经嗷嗷待哺,来不及了呀!!存储团队干脆一拍胸脯:“先这么生产,多出来的成本,我们包了!”


就这样,第三座大山终于被推为平地。


新的服务器拿去量产时,已经到了 2024 年秋天。190G/s 带宽终于稳了,老师傅回头一看,这边还剩一位爷——500 万 IOPS!


乔雅楠




(四)在 0 和 1 的世界里雕花 



我猜还有浅友没搞清带宽和 IOPS 的区别。


这里再用图书馆打个比方:


IOPS,指的是图书馆每秒借出去的书有“多少本”


带宽,是指图书馆每秒钟借出去书的总厚度有“多少页”


有啥区别呢?


假设图书馆每秒借出的书摞在一起是 1900 万页。


如果大多数书都很厚, 每本书有 1900 页,那 1900 万页总共也就 1 万本。把这些书借出去,管理员们每秒只需要“滴” 1 万次。这对于光速工作的 CPU 来说压力不大。


但同样总共 1900 万页,如果每本书只有 5 页,那每秒钟管理员就得“滴” 400 多万次,工作量瞬间多400倍,比在产线上打螺丝还累了!


肿么办?


一个所有人都能想到的办法就是:加管理员(CPU)呗。。。


但袁清波的“加”字还没说出口,就被乔雅楠的 PUA 给打断了:“我对你们这群大神有信心,现有资源肯定能撑住 500 万!”


袁清波点点头:“嗯,我也对自己有信心!”


咱们继续钻进图书馆里,看老师傅要怎么搞 IOPS。


话说,在图书馆(服务器)里拢共有 256 个管理员(CPU 核心)。这些管理员如果被充分调度,干到 500 万 IOPS 是绰绰有余的。


但问题恰恰是:图书馆的日常工作中,调度并不充分!“等待”和“绕路”是常态。


举两个?:


1)同一时刻,1 号管理员要找 A 书,2 号管理员要找 B 书。可恰巧 A、B 两本书在书架上挨得很近。


为了防止两个管理员打架,图书馆就得有规章:一个管理员站在书架前面操作,另一个必须站在一边等。




2)明明要找的书在 1 号书架上,可是系统随机指派了距离 1 号书架比较远的 4 号管理员去取。


4 号就得“跳”过好几个管理员的位置去拿书。路线一绕,耗时当然就长。




从微观来看,这些操作真的只多了一丢丢时间,但几百万个一丢丢叠加起来,浪费就相当明显。


要解决这些浪费,就必须到最微观的细节里动手术。


技术老师傅开动脑筋,琢磨黑科技:


一个黑科技叫“各管一摊”


比如,1 号管理员,只允许操作 1 号书架,也只允许坐在桌子的”1 号区域”,不能乱跑;2 号管理员只能操作 2 号书架, 只能坐在桌子的“2 号区域”;以此类推。


老师傅把每个独立的区域称为“IO 域”。




这样一来,管理员等待的问题就消失了——一个书架就我一个人负责,哪还会有人跟我抢?


还有个黑科技叫“接力赛跑”


简单来说,就是几个管理员可以共同完成一个借书任务。


例如:1 号管理员站在窗口,只负责接任务;它把任务推给最靠近这本书的 4 号管理员,后者负责把书找回来;如果 4 号管理员比较忙,他就会委托离自己最近同时也有闲的 3 号管理员把书送回到窗口。


就像下图所示




这样一来,相当于把一个任务拆散成 N 个,让压力*总能*分配到比较闲的管理员身上。


实际上,“调度”是整个存储系统中最硬核的部分:


每一个 IO,可能有四五个管理员负责接力。一旦系统指派的管理员之间的距离很远,或者走的路线很别扭,最后肯定还不如一个管理员全干下来快呢!


每一次调度,都像是在 0 和 1 的世界里做微雕。策略用不对,就像刻刀抖了一下,满盘皆输。


但我之前介绍过,曙光存储的师傅搞操作系统可是纯纯童子功,人均”微雕大师“。


十年饮冰,终于等到一朝喷火,此时不干,更待何时?他们撸胳膊挽袖子,各种眼花缭乱的调度策略都往上招呼!


这时,袁清波突然庆幸去年“把图书馆推倒重盖”的选择是多么正确——很多调度策略必须通过特定的通路才能实现,要不是坚持做了专用服务器,这些骚操作有一多半儿都玩不出来。。。


你看,真正的高手,每一招都不是独立的,而是承接前手,招招相连,不是加法是乘法。(战术后仰)


一次次测试中,500万 IOPS 的目标逐渐逼近。


就在老师傅紧锣密鼓地在 0 和 1 的世界里雕花的时候,门外突然杀来几个神秘壮汉。


开门一看,这。。。可是曙光存储期待已久的贵客。




(五)杀入“主战场” 



敲响大门的,是几家头部的云计算厂商。


按理说,计算和存储本是榫卯不离的好基友。但实际情况是,在过去几年云计算蓬勃发展的历史里,它和企业级存储却并没有很榫卯的合作。


原因也简单:云计算厂商自己也有”云存储”产品,云存储玩的是一个“容量巨大,价格低廉、兼容各种硬件”。


但有得必有失:既然选择了性价比和兼容性,极限性能就会受限。


好在过去几年,大多云上用户并没有对存储有特别凶残的需求,云存储游刃有余。


但 AI 时代的朝霞突然降临,“云上图书馆”支撑高级的 AI 学校开始吃力。


AI 客户拍拍钱包:兄嘚,还有没有更高性能的存储产品?多少钱,我买!


这么一来,云厂商就得主动去市场上寻找更专业的存储系统,于是敲响了曙光存储的山门,请大佬出山!


表面上刘备三顾茅庐,其实孔明也同样需要刘备。。。


因为存储系统自己孤芳自赏是不够的,它要知道自己的上家——计算系统——需要什么姿势!


云计算是前沿计算的“主战场”。武器只有开进主战场,才会面对最复杂的战情,才能看到最真实的需求,才能成为更强的武器!




主战场的战况很复杂。


咱就说一个角度:“CPU 和 GPU 的暗战”


话说,在过去的几十年里,CPU 都是赛博世界的王,所有的资源都是围绕它来设置的。


比如:内存是 CPU 的小弟,CPU 手里抓不下的数据,就放在内存上。网卡也是 CPU 的小弟,它接到的数据都得由 CPU 先临幸一下,再进一步分配。


但 AI 崛起后,GPU 这个“新王”苏醒。




计算的重担虽移到了 GPU 身上,可数据通路却仍由 CPU 霸占。


GPU 查看内存里的数据,需要 CPU 点头;


GPU 要用硬盘里的数据,不仅要 CPU 点头,还得从内存里涮一水,才能进自己的显存。


关键是,你 CPU 和内存的速度都不如我快呀。。。




“新王”不开心,思考各种办法绕开 CPU。


英伟达研发出了一个名叫 GDS 的协议——GPU 能直接把数据从存储系统拉到自己的显存里。这样就能和 CPU 说白拜,数据传输大大加快。


当然,前提是存储系统也得支持这个 GDS 协议。


曙光存储也支持 GDS 就行了呗?


行,但不够。


因为你懂的原因,中国的 AI 训练早已不止用英伟达 GPU,越来越多国产 GPU 在奔赴战场。


曙光存储索性一波带走,支持市面上所有的 GPU 直读协议,起名叫做 XDS。




即使绕过 CPU 和存储系统直接沟通,新王 GPU 还嫌不够快。


毕竟 GPU 和存储系统中间还有一根网线相连,这里网络的速度也可能限制 GPU 发挥实力。


能不能把这根网线也去掉?




当然那根实际的网线没办法去掉,但是有些黑科技可以让网线“变粗”。


曙光老师傅从超算中借鉴了一个技术——Burst Buffer


简单来说就是,在网络不太忙的时候,把将来可能用到的数据先从存储系统倒腾到 GPU 所在服务器的本地硬盘里。


这样,接下来的事情就都发生在 GPU 的机箱内部,就没网线什么事儿了,速度超快。


注意,Burst Buffer 只是存储系统在计算系统里的飞地,本质上还属于存储系统的一部分。


这意味着,老师傅的责任变多了。。。不仅要让数据能够稳定转移到这些飞地上,还要保证这些数据能实时同步,不出现错漏。。。




以上种种,其实都可以称为“AI 加速技术”,属于存储系统的“高阶技能”。


说到这些高阶技能,乔雅楠很感慨。


她带曙光分布式存储产品已经7年了,就在2023年以前,她一度觉得存储系统变成了“价格的厮杀”:


当时即便我们做了高阶功能,远程复制,各种克隆快照,业务用的也不多。


说到底,存储系统再厉害,业务发挥不出来,就无法感受到存储真正的价值。


但这一切都在 2023年反转。


AI 全民化时代的降临,让存储性能成了关乎生死的“大杀器”;


云计算,又让存储的各种高阶功能真正成了刚需。


在我探访的时候,有一个明显的感觉:团队师傅虽然比过去几年忙了十倍,但大伙儿心里有种说不出的美滋滋。那是一种“被需要”的幸福。


在时光中漫长等待,他们不再是谁的附属。


存储有了自己的主战场!


就在 2025 年 3 月,曙光骄傲地推出了最新一代分布式存储产品 ParaStor F9000,不仅达到了190GB/s 带宽和 500万 IOPS 这两个核心性能,还带着 XDS、BurstBuffer 和各种 AI 加速特性。


它看上去只是一个性冷淡的“大方盒”,但当你了解了这些细密电路中缠绕的点滴故事,也许会从嘶嘶电流的吟唱中,听到“天命人”对自己的回答。


ParaStor F9000




(六)数据的生命 



2025 年,DeepSeek 横空出世,给曙光存储的师傅带来一个好消息和一个坏消息。


好消息是:“AI 秘书”的成本有望大幅下降,长期看对存储的需求更旺盛;


坏消息是:AI 对存储的要求也在剧烈变化,存储产品稍不留神就会掉队。


但无论科技树的枝丫怎么生长,它的根基永远不会变。


我们不妨从生命的角度来理解数据。


AI 的灵魂是从数据的母体中浮现的。这意味着,要想孕育一个强大的 AI 生命,数据本身的生命周期要更长、更宽广。


这就引出了存储在时间线上的左右延展:


在训练 AI 之前,要满足数据的收集和清洗。


在训练 AI 之后,要满足数据的归档和冷却。




先说 AI 训练之前。


乔雅楠告诉我,数据存储有很多种格式。


在数据收集阶段,会大量提取互联网上的数据,它们以“对象”的形式存储;但这些数据却不能直接训练 AI,AI 用到的课本以“文件”的形式存储更合适。


所以,存储系统就必须具备一个能力:


同一套数据,能用对象的格式读写,也能用文件的格式读写。


老师傅于是做了一个“翻译官”,底层使用文件存储,当你要用对象的格式提取时,翻译官就把“文件”翻译成“对象”。




但袁清波并不满意,因为翻译不够优雅,也存在资源损耗。


最近他们在想办法踢掉翻译官,让存储系统自己学会”双语“:你用对象格式请求,它就给你对象数据,你用文件格式请求,它就给你文件数据。




再说 AI 训练之后。


好不容易收集的数据,训练之后肯定不能丢,应该存起来,以备将来再次训练或者不时之需。


于是,怎样让数据以最低成本沉睡归档,就成了一个问题。


目前存储的介质主要分为两种:“成本高但速度快的闪存”和“成本低但速度慢的机械硬盘”。


在训练的时候,当然必须放到闪存介质中;但在训练之后,再霸占闪存里就有点儿浪费了。


乔雅楠告诉我,为这事儿曙光存储专门搞了一个 S6000 “分层存储”混闪产品,里面有一小部分闪存盘,一大部分机械盘。


在训练时,会自动把数据推到闪存中,训练完毕,又会自动落回到机械硬盘中。


他们称之为“冷热数据分层技术”


由于冷热数据是由系统自动挪移的,所以只要在合理的负载范围内使用,你会发现 S6000 的性能会和纯闪设备一样,但存储成本却比纯闪设备低很多。


ParaStor S6000



这种自由游动的感觉,昭示了存储系统的未来:


也许某一天,只用一套存储系统就可以承载“AI 秘书的一生”:


无论在训练之前、训练之中、训练之后,AI 师傅都只需要关心自己的学校。完全不用操心图书馆这边的吞吐带宽、读取速率、存储成本、数据格式等等乱七八糟的事情。。。


数据有了生命,它会自己寻找道路。




告别前,袁清波悄悄告诉我,他已经领到了新任务——在下一代存储产品上让性能继续暴涨。为此,老师傅不止定制了新服务器,还定制了 CPU。


CPU 是说定制就定制的吗?


没错,因为它是国产的。


多说一句,由于美国实体清单的制裁,曙光从 2019 年以来就已经无法使用美国的关键技术了,所以今天讲述的曙光产品全部是基于国产芯片研发的。


无独有偶,中国存储行业的另一个巨头华为也享受了同样的待遇。


这意味,整个中国高端存储行业必须在国产技术栈之上生根发芽,而且已经枝蔓粗壮。


回望来路,技术老师傅从没有能力左右世界局势,也没有能力解决政治纷争。他们能做的,只是在漫长的冬季守护花朵,期待它们在春天绽放。


而所谓天命人,也无非是让汹涌的扼杀之刃穿过身体,化作滂沱的成全之雨。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询