阿里云 2025 AI 势能大会上,阿里云智能集团副总裁、阿里云智能计算平台事业部负责人汪军华带来主题演讲《范式演进:MoE&推理模型时代的挑战与应对》,并发布大数据 AI 平台一系列重磅产品能力升级。
汪军华认为,从 Generative AI 发展到今天的 Agentic AI,大模型能完成越来越多的逻辑推理和规划任务。未来,AI 需要与业务数据平台做打通和连接,打破与物理世界的边界,这样 AI 才能真正地服务每个人。为此,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 和 Agentic RAG 等新趋势带来的计算范式变革,多款大数据及AI产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。
01
随着 MoE(混合专家模型)架构再次成为焦点,模型训练的范式和挑战也相应升级。阿里云人工智能平台PAI 平台搭载自研大规模 MoE 混合精度训练引擎 PAI-FlashMoE 和高性能强化学习框架 PAI-Chatlearn,支持 SFT、PPO、GRPO 等训练任务快速配置,万卡规模 MoE 架构训练 MFU 达 35%-40%,帮助用户高效灵活地进行强化学习和 SFT 微调,确保训练过程的效率和稳定。
在模型推理阶段,模型在线服务平台 PAI-EAS 具备负载感知的 PD 分离架构,结合 MoE 分布式推理调度引擎 Llumnix,能显著提升推理速度和资源利用率,首 Token 生成响应时间降低92%,端到端服务吞吐提升91%。同时,PAI-EAS 推出高性能 KV Cache 缓存服务,千万级用户活跃用户场景的 KV Cache 命中率可提升10倍以上,基于 3FS 存储系统的吞吐效率大幅提升。
本次大会上,PAI 全新发布模型权重服务,能大幅缩短模型冷启动加载及扩容加载时间。PAI-BladeLLM 推出混合精度量化能力,在校准时逐层选择精度最佳的算法策略,在推理时动态选择最优计算模式,进而取得精度和速度的最佳平衡。
02
除了 PAI 平台的核心优势,阿里云还通过多产品矩阵加速 AI 生产力的跃迁。例如, OpenSearch 推出 Agentic AI 搜索,基于自主规划、搜索、澄清、总结等多种Agent,可对接多种知识库来源和系统,实现复杂内容的深度搜索,搜索召回率提升13%,幻觉率降低42%。
03
基于 MCP 协议,阿里云宣布大数据开发治理平台 DataWorks 和实时数仓 Hologres 发布 MCP Server,并推出 DataWorks Agent 服务,让大数据计算和开发治理工作从 Copilot 辅助步入到 AI Agent 时代。
实时数仓 Hologres MCP Server,作为阿里云目前唯一的被MCP官方仓库收录的产品,支持通过大模型查询 Hologres 中元数据(Schema、表等)、执行SQL、查看 query log 等等,与众多支持 MCP 的平台联动,解决大模型在数据预处理、可视化解读和科学推理等环节的问题。
基于 DataWorks Agent,用户可以通过自然语言交互来自动化完成 DataWorks 上数据开发、数据治理的部分任务,例如数据集成、数据开发、任务运维等。
此外,阿里云 Elasticsearch、向量检索服务 Milvus 版产品也实现对开源社区 MCP Server 的适配。
04
汪军华认为,大数据平台正在从一站式走向智能化。本次大会上,MaxCompute for AI 功能重磅升级,可通过 MaxFrame 实现大模型数据预处理,涵盖文本、多模态等多种数据类型,极大提升了Data for AI 场景效率。同时,MaxFrame 正式推出 AI Function 功能,用户可直接调用 AI Function 中提供的简单易用的编程接口,就可以对表中的海量数据使用大模型进行离线处理,极大地简化数据处理流程并提升处理结果的质量。
DataWorks 平台则采用了 Data+AI 双轮驱动模式,提供 SQL 生成、测试与优化等功能,帮助企业更高效地进行数据分析与决策。共同促进数据预处理及企业数据价值获取效率得到了显著提升。此外,DataWorks 和 Hologres 全面拥抱 MCP,标志着从 AI 辅助工作向由 AI Agent 自主思考并执行任务的重大转变。这一创新将大大加速 AI 技术在各行各业的应用,为企业提供更加智能化、自动化、可信化的解决方案。