我要投稿

首个 AIOS 平台重磅发布：新一代 AI 基础设施来了

发布日期：2024-08-06 23:42:57 浏览次数： 2245 来源：云头条

新一代 IT 基础设施，将从通用算力+云平台转型为 AI 算力+AIOS 平台。

AI正在重构世界。正如世界是立体的，AI 重构也正从多维度开启：基础设施重构，业务应用重构，交互模式重构，数据价值重构，生态系统重构……

2023 年 6 月，英伟达市值首次突破万亿美元，率先引爆基础设施重构的全球化浪潮。随着数据中心转向智算中心，硬件基础设施从通用算力走向 AI 算力，软件基础设施也将转型为新一代 AI 基础设施——AI 操作系统（AIOS）平台。

新一代 AI 基础设施 AIOS 平台

AI企业级商用的道路并不平坦。

2022 年 11 月，‌OpenAI ChatGPT-3‌ 开启了生成式 AI（GenAI）走向商用的新时刻。

据 IDC 预测，到 2025 年仅仅三年时间，全球 2000 强企业就会把超过 40% 的核心 IT 支出用于 AI 相关计划，千亿级企业 AI 大市场已徐徐拉开。

但另一方面，‌OpenAI ChatGPT 企业版收入占比仅为 21%，且有外媒报道 2024 年 OpenAI 或将面临 50 亿美元巨额亏损。

中国 AI 企业级市场则面临更多挑战。

算力层：与国外以英伟达为主的AI算力不同，中国市场呈现多架构多品牌的AI算力格局。企业不仅仍旧面临算力稀缺，如果各异构算力之间无法互通，还会形成硬件算力竖井。

模型层：产品导向必将转向场景导向。随着训推模型向场景化发展，不同场景下模型分工将更为专业，大模型呈垂直化趋势，在企业侧部署易于发展为模型生态竖井。

运营层：“百模大战”迅速走向推理应用，亟待在解耦算力竖井和模型竖井的基础上，实现跨平台的计量计费，迅速提升企业 AI 普及率。

“AI 任务的多样性要求不同的模型处理，数据的多样性要求多模态能力，算力的异构性要求分布式多架构并行，模型的不断演进要求企业灵活更迭新的AI模型……面对企业AI的复杂与困境，亟待能够破局的新一代AI基础设施。”

云轴科技ZStack创始人兼CEO张鑫认为，“一个能够同时解耦算力竖井和模型竖井、全域感知动态调度、实现自服务运营的新一代AI基础设施AIOS平台，成为提升企业AI渗透率的关键一环。”

作为 AI 生态系统中的新型形态，AIOS 平台应该如何定义，包括哪些关键要素？

与模型即服务（MaaS）不同，AIOS 是专门为 AI 应用而设计的操作系统平台，它不仅可以高效管理硬件算力资源，还内置 AI 引擎解耦不同模型、调度不同算力、执行各种 AI 任务，通过自服务运营模式降低 AI 应用门槛，提高 AI 应用效率。

ZStack 张鑫认为，作为新一代 AI 基础设施，AIOS 平台需要在安全可控、持续迭代的基础上，同时在算力层、模型层、运营层三大层面实现以 AI 为核心的重构：

算力层：从运维视角，以AI为核心进行算力资源预测、精分、调度，降低AI应用成本；

模型层：从开发视角，以AI应用框架进行AI训推模型无缝集成与生命周期管理，优化AI应用性能；

运营层：从业务视角，提供多智算中心、多集群、多租户的按量计费运营，实现AI自服务化。

8 月 6 日，云轴科技 ZStack 正式发布首个 AIOS 平台“智塔“，期望通过同时解耦算力竖井和模型竖井，优化AI应用性能和成本，解锁千亿级企业AI市场。

算力层：ZStack AIOS 平台“智塔“的算力精分调度平台，支持 NVIDIA、AMD、Intel、海光、华为昇腾、寒武纪、燧原、天数智芯、太初元碁、壁仞、摩尔线程、沐曦等中国市场上的主流品牌和几十种 AI 芯片型号，实现异构算力协同不同AI 模型之间的优化路由。

模型层：ZStack AIOS 平台”智塔”的动态模型自适应平台，可以支持生成式AI（GenAI）、自然语言处理 (NLP)、计算机视觉、机器学习（ML）、深度学习（DL）以及多模态AI，并支持Llama、Gemma、通义千问Qwen、智谱ChatGLM、百川Baichuan、零一万物Yi、OLMo、GPT-NeoX等数百种开源大模型，实现模型压缩与性能优化，模型选型与生命周期管理，训推高效部署与自适应调度，达到跨软硬件的全面性能优化。

运营层：ZStack AIOS 平台”智塔”的全域感知自服务平台，可以进行多租户隔离和动态资源配额管理，实现跨智算中心、跨集群的全域感知统一调度，提供按量计费的动态训推服务，具备可视化统一门户，弹性跨域容错，实现精细化的自服务运营体系。

算力层：提升异构算力效率，破局算力稀缺难题

“AI的尽头是电力。“这一观点其实是AI芯片全球性规模扩张的展现。随着训推竞赛展开，千卡规模、万卡规模不断升级，AI算力资源稀缺且成本高昂。

在中国企业AI应用中，面对异构算力与多种模型选择，企业首要的需求是快速部署和高效运维AI模型。目前，AI算力池化替代异构算力竖井已成趋势，企业需要一个AIOS平台解决模型高效部署运维难题，避免为单个模型部署单一AI算力形成竖井架构，将异构算力池化并实现协同调度，使得企业在模型快速部署的同时，高效利用异构算力资源，显著降低算力成本。

ZStack AIOS平台“智塔”具备裸金属、虚机与容器多引擎能力，通过GPU切割精分量化，对异构AI算力实现可达1%的量化管理，大幅降低算力成本。算力层的另一大核心在于，在AI算力精分量化基础之上，通过分布式协同调度能力，实现异构算力的统一管理和动态调度，达到算力的精细化资源复用，进一步降低算力成本。

模型层：多模型框架集成，MaaS服务灵活高效

《IDC FERS Survey Wave》2024 年发布的最新调研显示，48% 的 GenAI 都将在企业本地部署，随着 AI 从训练走向推理，行业企业应用成为真正加速 AI 商用化进程的关键。

在中国企业 AI 训推实践中，完整完成一个 AI 任务往往需要多个专业模型协同工作。

另一方面，各大领域开源模型的大量涌现，也助推企业使用不同模型解决不同业务问题。

ZStack 张鑫认为：“类似数据库应用，企业会同时使用 Oracle、MongoDB、MySQL、Redis 等不同类型数据库来解决不同场景的问题，未来，企业同时使用多个模型将成为常态。“

面对多种模型应用，企业 AI 应用的一个重要需求是模型选型、精调、推理、MLops/LLMops 的调度与性能优化。企业需要一个 AIOS 平台集成模型框架来实现多个模型的协同能力，并同时通过模型压缩加速、数据感知编排等实现AI模型的性能优化。

ZStack AIOS 平台“智塔”一方面通过动态模型自适应平台，提供从模型训练、评估、推理到更新的全生命周期管理，高效实现模型服务优化；另一方面通过将AI任务智能解构，动态优化路由、分布式并行训推，自适应负载均衡等能力，结合算力层的算力精分协同调度平台，显著提升模型训推性能和模型服务体验。

运营层：全域感知自服务化，提升企业 AI 渗透率

作为新一代AI基础设施，AIOS 平台在模型层和算力层通过优化资源分配和模型部署，降低企业 AI 应用门槛，提升企业 AI 应用效率；另一方面，如果企业还具备AI自服务运营能力，将在提升企业AI渗透率的进程中起到四两拨千斤的作用。

ZStack AIOS 平台“智塔”以 AI 为核心提供更全面更直观的可视化统一视图，实现精细化管理；在动态调度资源方面，跨多智算中心、多集群全域调度自适应模块，可以根据需要实现跨平台的自动扩缩和调度功能；在训推服务高可用方面，弹性容错自愈模块具备快速故障定位与故障自愈能力，可以实现跨平台的容错与灾备；在安全与隐私方面，将融合敏感数据检测能力，实现端到端的数据安全保障作为运营基础；在系统运营方面，可实现多租户隔离和资源配额管理，训推计量计费服务。

作为新一代 AI 基础设施，AIOS 平台通过算力层、模型层、运营层三大方向以 AI 为核心进行重构，解耦异构算力竖井降低AI应用成本；解构模型生态竖井优化AI应用性能；全域计量计费实现AI自服务化，加速企业 AI 渗透率，解锁千亿企业 AI 市场。