AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


AI存储之VAST Data分析 上篇
发布日期:2024-06-04 10:51:59 浏览次数: 2224 来源:太平说存储


前一段时间,有一个小道野消息传播说vast data拿下了6%的全闪存市场份额,让我很惊奇。毕竟在存储领域6%一般都是第二集团的中坚力量,而vast data我又非常的陌生以前都没有听过几次。

当然IDC很快驳斥了这种说法,并且vast data本质上还是一家存储软件企业,应该无法和各家主流传统存储厂商比拼全闪存的营收。



不过这成功勾起了我对这家厂商的兴趣,结合到AI市场的大热,以及一系列新闻(融资情况、升级到AI基础设施、云上部署)终于让我需要深入的了解一下这家独特的存储厂商。



VAST Data的设计理念


在传统存储市场,主要应对的top workload是数据库及虚拟机,因此主要使用块存储作为存储主力,在过去的历史时段内,很长时间块存储的市场占比超过80%。在云存储时代这个比例发生了很大的变化,对象存储在互联网场景的崛起成为和块存储分庭抗礼的支柱,和云主机的块存储各占30-40%的市场空间,不管怎么变化,NAS或者说文件存储总是那个比较弱小的一个。



但是,到了AI时代这一些似乎发生了变化,为了应对AI时代框架对于数据加载和checkpoint的业务及性能需求,很多存储系统被仓促的从HPC拉过来,用于应付传统对象存储无法满足的性能和功能需求。



每一次存储市场的仓促应对都孕育着新的机会。



Vast data从存储起步,与传统存储主要有以下个方面的区别:



1,聚焦全闪存:放弃了HDD介质,全面的只针对闪存和SCM来进行设计,这一点跟IntelDOAS类似,但是DAOSIntel为了推广自己的SSD+SCM推出的。Vast 凭什么能够火起来?



2,架构创新:充分利用SCM介质的特性,放弃了全局缓存,所有数据都持久化,并全局共享(通过NVMe-of网络)。同时所有的后端SCMSSD所有的前端计算节点均可同样的访问,革命了传统存储系统中分布式缓存系统的设计(share-everthing,我并不喜欢造词,但是vast造的这个Shared-Everything model国内有些厂商也在配合炒作),真正意义上做到了线性的扩展,消除了因为规模扩大带来的缓存同步和节点间横向流量转发的问题。性能线性、容量线性(是真的线性,扩展到1000-10000节点也问题不大)。



3,成本:通过QLC+SCM的模式优化成本,其中QLC我们所有所得DWPD或者TBW都是针对随机IO场景,VAST通过顺序大IO的异步写入来优化寿命。同时,提供146+4EC



4,软件订阅销售:21年开始推出了名为Gemini的软件订阅服务,打破了传统存储厂商软硬件一体化销售的方式,也打开了自己在头部厂商领域的机会窗。毕竟并行文件存储可没有几家厂商有。当然对于没有指定的情况下,VAST data的硬件由他自己的硬件供应商Avnet提供。后来又有新增的各种供应商。比如说:在Google cloud中、在CoreWeaveGPU云中,比如说和supermrico合作。



5,NVIDIA结合:作为早早锚定的赛道,vast data2019年就开始宣传自己针对AI场景设计的理念,当年可没有几个厂商在这里深耕或者重点挖掘。他通过和NVIDIA DPU构建存储节点、跟CoreWeave适配端到端NVIDIA的硬件。打造了自己最适合AI大模型场景的人设。



随着大模型的爆火,自然而然VAST data也成为这个赛道最靓的仔,但是他的困惑也很明显:Intel放弃了3Dxpointvast data的下一步怎么走?



硬件架构


虽然vast宣传自己是个软件厂商,但是本质上它可能是不想运作重资产,其次,他的架构基于SDS设计,可以让自己更加轻松的适配新的环境。





在硬件架构中,VAST DATA存储分为计算节点、存储节点、网络设备三部分。其中计算节点被称之为CNode,存储节点称之为DNode,连接两种节点集群之间的网络使用NVMe-of网络交换机。



计算节点是无状态的,但是后端的存储节点可不行。因此需要提升存储节点的可靠性。在设计中,每个 HA Enclosure 都包含两个 DNode,它们负责通过每个 DNode 上的 PCIe 交换机芯片将 NVMe-oF 请求从端口路由到机箱的 SSD



硬件网络架构


首先,整个系统架构分为计算节点和存储节点。计算节点称之为CNode,存储节点称之为DNode。其中所有关于计算处理相关的都在CNode上处理,所有需要持久化保存的数据及元数据都保存在DNode



其中所有的DNode都通过NVMe-oF与所有的CNode连接,这里没有归属控制器或者机头的概念,所有的前后端节点都是对等的。因此 ,也不存在我们传统存储中的控制器故障的切换时间。



其次集群中的所有 CNodes 都会在启动时通过 NVMe-oF 挂载集群中的所有 SCM flash SSD。这意味着每个 CNode 都可以直接访问集群中的所有数据和元数据。在 DASE 体系结构中,所有内容(每个存储设备、每个元数据结构、系统内每个事务的状态)都在集群中的所有 CNode 服务器之间共享。



当需要读取数据的时候,Cnode会从 SCM SSD 访问该文件的元数据,以查找数据在flash SSD 上的位置,然后直接从超大规模 SSD 读取数据。看到这里你想到了什么?对,就是GFS的架构,client读取datanode,就是先从master上获取文件位置,然后去对应的datanode获取数据(IT的架构设计就是个螺旋上升的方式)。



对于Cnode来说,它是基于容器化运行的,无状态的,任何一个cnode失效,对于整个存储系统来说是无关的,不影响的。VASTOS 的升级过程实例化新的 VASTOS 容器,而无需重新启动底层操作系统,从而将 VAST 服务器的脱机时间缩短到几秒钟。(整个系统的升级效率非常高,传统存储每次升级都要选择业务低估,预留小时级的时间进行升级)



计算节点的无状态,但是后端的存储节点可不行。因此需要提升存储节点的可靠性。在设计中,每个 HA Enclosure 都包含两个 DNode,它们负责通过每个 DNode 上的 PCIe 交换机芯片将 NVMe-oF 请求从端口路由到机箱的 SSD



这意味着,从网络端口到SSD都是冗余设计的,这个在分布式存储中并不少见。但是Dnode并不承载过于复杂的业务,因此每个机箱中都是使用了ARM DPU作为DNode的处理器。每一组Enclosure 中的两个DNode采用全active-active的工作模式。



业务网络架构


业务集群和存储网络接入有两种方式。



1,业务和存储共享一张网络,都通NoF的交换机接入



2,业务系统通过Cnode接入存储系统



两种方式各有优劣:



1,通过统一网络接入的就失去了灵活性,一旦初次确定用了以太网或者infiniband就无法更换;通过Cnode可以按照业务系统负载的不同选择不同的网络



2,通过统一网络接入好处是网络统一,需要网口节省,并且集中在统一的100Gbps网络交换中节省成本。但是如果业务网络不是100Gbps就会很浪费。



下面两篇,还会详细分析硬件细节,软件设计,以及商业模式等。



53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询