我要投稿

AI存储之VAST Data分析上篇

发布日期：2024-06-04 10:51:59 浏览次数： 1798

前一段时间，有一个小道野消息传播说vast data拿下了6%的全闪存市场份额，让我很惊奇。毕竟在存储领域6%一般都是第二集团的中坚力量，而vast data我又非常的陌生以前都没有听过几次。

当然IDC很快驳斥了这种说法，并且vast data本质上还是一家存储软件企业，应该无法和各家主流传统存储厂商比拼全闪存的营收。

不过这成功勾起了我对这家厂商的兴趣，结合到AI市场的大热，以及一系列新闻（融资情况、升级到AI基础设施、云上部署）终于让我需要深入的了解一下这家独特的存储厂商。

VAST Data的设计理念

在传统存储市场，主要应对的top workload是数据库及虚拟机，因此主要使用块存储作为存储主力，在过去的历史时段内，很长时间块存储的市场占比超过80%。在云存储时代这个比例发生了很大的变化，对象存储在互联网场景的崛起成为和块存储分庭抗礼的支柱，和云主机的块存储各占30-40%的市场空间，不管怎么变化，NAS或者说文件存储总是那个比较弱小的一个。

但是，到了AI时代这一些似乎发生了变化，为了应对AI时代框架对于数据加载和checkpoint的业务及性能需求，很多存储系统被仓促的从HPC拉过来，用于应付传统对象存储无法满足的性能和功能需求。

每一次存储市场的仓促应对都孕育着新的机会。

Vast data从存储起步，与传统存储主要有以下个方面的区别：

1，聚焦全闪存：放弃了HDD介质，全面的只针对闪存和SCM来进行设计，这一点跟Intel的DOAS类似，但是DAOS是Intel为了推广自己的SSD+SCM推出的。Vast 凭什么能够火起来？

2，架构创新：充分利用SCM介质的特性，放弃了全局缓存，所有数据都持久化，并全局共享（通过NVMe-of网络）。同时所有的后端SCM和SSD所有的前端计算节点均可同样的访问，革命了传统存储系统中分布式缓存系统的设计(share-everthing,我并不喜欢造词，但是vast造的这个Shared-Everything model国内有些厂商也在配合炒作)，真正意义上做到了线性的扩展，消除了因为规模扩大带来的缓存同步和节点间横向流量转发的问题。性能线性、容量线性（是真的线性，扩展到1000-10000节点也问题不大）。

3，成本：通过QLC+SCM的模式优化成本，其中QLC我们所有所得DWPD或者TBW都是针对随机IO场景，VAST通过顺序大IO的异步写入来优化寿命。同时，提供146+4的EC

4，软件订阅销售：21年开始推出了名为Gemini的软件订阅服务，打破了传统存储厂商软硬件一体化销售的方式，也打开了自己在头部厂商领域的机会窗。毕竟并行文件存储可没有几家厂商有。当然对于没有指定的情况下，VAST data的硬件由他自己的硬件供应商Avnet提供。后来又有新增的各种供应商。比如说：在Google cloud中、在CoreWeave的GPU云中，比如说和supermrico合作。

5，和NVIDIA结合：作为早早锚定的赛道，vast data在2019年就开始宣传自己针对AI场景设计的理念，当年可没有几个厂商在这里深耕或者重点挖掘。他通过和NVIDIA DPU构建存储节点、跟CoreWeave适配端到端NVIDIA的硬件。打造了自己最适合AI大模型场景的人设。

随着大模型的爆火，自然而然VAST data也成为这个赛道最靓的仔，但是他的困惑也很明显：Intel放弃了3Dxpoint，vast data的下一步怎么走？

硬件架构

虽然vast宣传自己是个软件厂商，但是本质上它可能是不想运作重资产，其次，他的架构基于SDS设计，可以让自己更加轻松的适配新的环境。

在硬件架构中，VAST DATA存储分为计算节点、存储节点、网络设备三部分。其中计算节点被称之为CNode,存储节点称之为DNode,连接两种节点集群之间的网络使用NVMe-of网络交换机。

计算节点是无状态的，但是后端的存储节点可不行。因此需要提升存储节点的可靠性。在设计中，每个 HA Enclosure 都包含两个 DNode，它们负责通过每个 DNode 上的 PCIe 交换机芯片将 NVMe-oF 请求从端口路由到机箱的 SSD。

硬件网络架构

首先，整个系统架构分为计算节点和存储节点。计算节点称之为CNode，存储节点称之为DNode。其中所有关于计算处理相关的都在CNode上处理，所有需要持久化保存的数据及元数据都保存在DNode。

其中所有的DNode都通过NVMe-oF与所有的CNode连接，这里没有归属控制器或者机头的概念，所有的前后端节点都是对等的。因此，也不存在我们传统存储中的控制器故障的切换时间。

其次集群中的所有 CNodes 都会在启动时通过 NVMe-oF 挂载集群中的所有 SCM 和flash SSD。这意味着每个 CNode 都可以直接访问集群中的所有数据和元数据。在 DASE 体系结构中，所有内容（每个存储设备、每个元数据结构、系统内每个事务的状态）都在集群中的所有 CNode 服务器之间共享。

当需要读取数据的时候，Cnode会从 SCM SSD 访问该文件的元数据，以查找数据在flash SSD 上的位置，然后直接从超大规模 SSD 读取数据。看到这里你想到了什么？对，就是GFS的架构，client读取datanode,就是先从master上获取文件位置，然后去对应的datanode获取数据（IT的架构设计就是个螺旋上升的方式）。

对于Cnode来说，它是基于容器化运行的，无状态的，任何一个cnode失效，对于整个存储系统来说是无关的，不影响的。VASTOS 的升级过程实例化新的 VASTOS 容器，而无需重新启动底层操作系统，从而将 VAST 服务器的脱机时间缩短到几秒钟。（整个系统的升级效率非常高，传统存储每次升级都要选择业务低估，预留小时级的时间进行升级）

计算节点的无状态，但是后端的存储节点可不行。因此需要提升存储节点的可靠性。在设计中，每个 HA Enclosure 都包含两个 DNode，它们负责通过每个 DNode 上的 PCIe 交换机芯片将 NVMe-oF 请求从端口路由到机箱的 SSD。

这意味着，从网络端口到SSD都是冗余设计的，这个在分布式存储中并不少见。但是Dnode并不承载过于复杂的业务，因此每个机箱中都是使用了ARM DPU作为DNode的处理器。每一组Enclosure 中的两个DNode采用全active-active的工作模式。

业务网络架构

业务集群和存储网络接入有两种方式。

1，业务和存储共享一张网络，都通NoF的交换机接入

2，业务系统通过Cnode接入存储系统

两种方式各有优劣：

1，通过统一网络接入的就失去了灵活性，一旦初次确定用了以太网或者infiniband就无法更换；通过Cnode可以按照业务系统负载的不同选择不同的网络

2，通过统一网络接入好处是网络统一，需要网口节省，并且集中在统一的100Gbps网络交换中节省成本。但是如果业务网络不是100Gbps就会很浪费。

下面两篇，还会详细分析硬件细节，软件设计，以及商业模式等。

53AI，企业落地应用大模型首选服务商

产品：大模型应用平台+智能体定制开发+落地咨询服务

承诺：先做场景POC验证，看到效果再签署服务协议。零风险落地应用大模型，已交付160+中大型企业

160+中大型企业正在使用53AI

立即咨询预约演示

百度智能云邀53AI：共创AI新纪元，启航智能新时代

2024-05-27

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

2024-05-22

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

2024-05-14

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

2024-04-26

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

2024-05-22

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

2024-04-12

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

2024-07-18

万字长文解析：大模型需要怎样的硬件算力

2024-03-30

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

2024-05-10

开源项目Composio：突破 AI 智能体开发的边界

2024-08-13

更改ollama模型存储路径

2024-04-25

全面对比dify、coze、streamlit、chainlit

2024-04-26

大家都在问

在长上下文LLM的时代，RAG是否仍然必要？

2024-09-20

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

2024-09-19

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

2024-09-19

o1 能带我们走进 AGI 吗？

2024-09-19

如何微调（Fine-tuning）大语言模型？

2024-09-18

AI软件必须用GPU么？

2024-09-18

ChatGPT有三个快捷指令和三个模式，你知道吗？

2024-09-17

为什么4090比A100更有性价比？

2024-09-17

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

VAST Data的设计理念

硬件架构

硬件网络架构

业务网络架构

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

为什么4090比A100更有性价比？

热门标签

开箱即用的企业大模型应用平台

工作+AI

业务+AI

AIx业务

大模型咨询

大模型定制

VAST Data的设计理念

硬件架构

硬件网络架构

业务网络架构

相关资讯

160+中大型企业正在使用53AI

百度智能云邀53AI：共创AI新纪元，启航智能新时代

钉钉恒星计划：53AI与百余位企业家及钉钉生态伙伴，共议“AI 浪潮下的新机遇”

热点资讯

最强 GPT 免费使用！GPT4O 开启多模态新时代！

全民AI时代：手把手教你用Ollama & AnythingLLM搭建AI知识库，无需编程，跟着做就行！

【开源看AI】4.9K star！Khoj：完美融合本地文档和在线网页的AI第二大脑

OLLama详细的 api 介绍 不完全指南 python 直接调用 OLLama api 翻译助手演示

GraphRAG+Ollama 本地部署，保姆教程，踩坑无数，闭坑大法

万字长文解析：大模型需要怎样的硬件算力

微调神器LLaMA-Factory官方保姆级教程来了，从环境搭建到模型训练评估全覆盖

开源项目Composio：突破 AI 智能体开发的边界

更改ollama模型存储路径

全面对比dify、coze、streamlit、chainlit

大家都在问

在长上下文LLM的时代，RAG是否仍然必要？

【AI赋能】揭秘大模型微调：如何让机器智能跃升一个台阶？

从案例分析到客户沟通：AI提示词如何优化律师工作流程？

o1 能带我们走进 AGI 吗？

如何微调（Fine-tuning）大语言模型？

AI软件必须用GPU么？

ChatGPT有三个快捷指令和三个模式，你知道吗？

为什么4090比A100更有性价比？

热门标签

OLLama详细的 api 介绍不完全指南 python 直接调用 OLLama api 翻译助手演示