推荐语
深度解析大模型发展新趋势,把握AI技术未来方向。
核心内容:
1. 大模型算力投入模式的现状与未来预测
2. 多模态与慢思考技术的发展及其行业影响
3. 国产高端芯片面临的挑战及大模型应用拓展
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
推理模型能力的持续提升,推动大模型迎来“可用”到“好用”的拐点。推理强化和应用拓展启动了大模型下半场的新赛程。个人智能体潜力初步显现,行业应用渐次走深,开源开放日益成为大模型的核心竞争力组成。大算力、多模态、强推理、广开源、准数据、智能体、深应用等,成为当前发展的重要趋势。
DeepSeek以557万美金的低成本训练,给全球带来很大震动。但这并未颠覆大模型需要大算力的底层逻辑,实际上,该模型单次训练成本相当于国外同类模型成本的八分之一左右,尚未有数量级的差别,其意义是以更集约化的方式复现已有模型效果的工程创新。此前网络热炒的中美大模型训练成本的悬殊对比,其实是拿美国千亿美金级别的数据中心建设、芯片购买、网络搭建、科学家薪酬等总支出,来对比DeepSeek的单次训练成本,裹挟了较大的夸张和情绪因素。用更大算力去探索大模型的能力上限,仍是行业共识。预计今年上半年国外将推出GPT-5、Llama 4级别大模型。美国大算力集群建设如火如荼,马斯克的xAI已建成全球规模最大的20万张H100算力集群,并在此基础上训练出Grok3大模型。谷歌今年预计投入750亿美元,同比增长43%,大部分用于算力中心建设;Meta预计投入为600-650亿美元,同比增长53%-66%;亚马逊预计为1000亿美元,同比增长超20%。此外,日本软银集团、OpenAI和美国甲骨文公司三家企业联合开启星际之门计划,将在未来4年投资5000亿美元,在美国建设超大型算力基础设施。这些将推动大模型在预训练方面的更多突破,加上现在流行的强化学习等后训练增强,大模型能力的跃升可能会进一步加快。有不少大佬预测,AGI的实现可能就在最近的两到三年。高端芯片供给仍是中国下一代大模型的卡脖子问题,可能再次面临训练芯片供应不足的风险。虽然去年以来,我国AI高端芯片企业数量和能力均有提升,华为、燧原科技、摩尔线程、海光、壁仞等多家企业已设计出对标英伟达A100单卡性能的国产芯片,但由于台积电暂停7nm产能供应及HBM禁令等限制,国产高端芯片的制造仍面临挑战。二、慢思考和多模态成标配,
多领域将迎来AlphaGo时刻
包含了强化学习等在内的后训练过程,把预训练积累的模型潜力发挥了出来,模型慢思考带来了推理能力的大幅提升。受DeepSeek效应刺激,国内外大模型公司正加速推出下一代大模型,如OpenAI的基础大模型GPT-4.5,推理模型o3;Anthropic整合了深度思考和快速输出的混合推理模型Claude 3.7;Google相继发布 Gemini 2.0和更强大的推理模型Gemini 2.5 Pro,以及xAI的Grok 3。国内腾讯混元发布了可以秒回的强推理模型T1,将快慢思考相结合,并首次将混合Mamba架构无损应用于超大型推理模型,显著降低了训推成本。DeepSeek更新了一版名为DeepSeek-V3-0324的模型,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。多模态是人类世界的本来样貌,大模型的发展趋势一定是走向多模态,从单一的文本、图像、视频、3D,向声、光、电,甚至分子、原子等各类模态扩展,达成对真实世界的理解和生成,原生多模态是未来方向。近期发布的谷歌Gemini 2.0 Flash可实现一句话编辑图片,堪比专业Photoshop软件的编辑效果; GPT4o最新推出的风格化文生图能力火爆全网。腾讯刚开源的混元3D模型,同时支持文生3D和图生3D,可一键换皮肤、一键变动画,一键生成3D游戏视频。随着模型能力的跃迁,可以预见,更多领域将迎来“AlphaGo时刻”,即大模型在各领域的能力超过该行业90%以上,甚至最高水平的人。OpenAI的o1在在美国数学邀请赛拿到接近满分成绩,在物理、 生物和化学问题的基准测试上超越了博士水平的准确率。Anthropic 首席执行官Dario近日预言 ,未来3-6 个月 AI 将能够编写 90% 的代码。之前行业争执不下的开源与闭源之辨,倒向了开源的一边。DeepSeek的火爆,一定程度上得益于开源,其采取的MIT License协议支持完全开源,不限制商用,也无需申请,让全球开发者都有机会上手使用和评测,依靠口碑效应快速形成了全球影响力。原来坚定走闭源路线的OpenAI也被迫考虑开源,奥特曼近日公开表示,之前选取的闭源策略可能站在了历史错误的一边,同时还在社交平台公开征集开源方案,未来要做端侧的开源大模型和o3 mini级别的开源模型。国外Meta,国内腾讯、阿里、智谱等企业很早就开启了开源战略。如,混元文生图模型是业内首个中文原生的DiT架构文生图开源模型;文生视频大模型是当前最大的视频开源模型,且全面开源,包含模型权重、推理代码、模型算法等完整模型。国外Hunging Face等社区也成为全球大模型开发者活跃的重要平台,在Hunging Face上汇集了152万款开源大模型,33.7万个开放数据集。同样重要的还有大模型的开放协议,可以类比为互联网兴起时的HTTP协议,HTTP让各类网页都能以统一的格式展现在浏览器中,方便用户获取信息。大模型的数据通信开放协议则可以让大模型更方便地调用各种工具,从而自主完成各类任务。如,近期火爆的MCP(模型上下文协议)是Anthropic于去年11月发布的一个模型数据通信协议,成为连通大模型和各类工具之间的桥梁。技术对知识信息的影响,第一次从传播和交互环节向前延伸到生产环节。大模型知识输出的精准度、专业度,即大模型的“可信度”,正在成为人工智能的核心竞争指标。大模型带来信息极大丰富的同时,内容中所包含的幻觉等噪声问题也困扰着用户。《哥伦比亚新闻评论》研究发现,美国用于新闻搜索的生成式人工智能模型存在严重的准确性问题。研究人员测试了8种具备实时搜索功能的AI搜索工具,发现有60%以上的新闻来源查询错误。大模型的幻觉问题,是伴随人工智能底层技术路径与生俱来的,和创新能力是一体两面的,难以仅仅依靠技术彻底解决。引入权威的图书、杂志、新闻资讯、论文等优质内容数据,并打造新的、“可信”的知识共识机制和供应体系,是大模型未来在生产、生活应用领域产生更大价值的关键所在。OpenAI与新闻集团去年签署了为期5年的合同,获得了访问该集团旗下媒体历史内容的授权,包括《华尔街日报》《巴伦周刊》《泰晤士报》《每日电讯报》等主流媒体,以增强大模型回答内容的可信度。腾讯混元正在与大百科出版社、人民卫生出版社、上海辞海出版社、化工出版社等优秀的传统出版机构开展合作,支持其推出图书智能体,探索基于搜索增强技术的可信大模型合作模式。如,在元宝APP应用广场中,人卫智能体可以为用户提供心脑血管等特定医学知识领域的权威解答,同时提供相关书籍原文的引用,并可以引流到电子书阅读平台,跳转到实体书购买页面。既能实现类似脚注尾注、文献索引等传统知识溯源机制的迁移,确保输出知识的共识性、准确性,也将为出版机构和大模型平台带来可持续共赢的模式。未来,谁能够接入更多可信的数据源,构建起可信的评价和共识机制,谁就能在人机内容共创的时代获得领先优势。GPT-4.5,DeepSeek V3、腾讯Turbo S等基础大模型,OpenAI o3、DeepSeek R1、腾讯T1等推理模型的陆续发布,标志着基础大模型进化到了好用的阶段,推动个人应用迎来发展新起点。过去个人应用之所以不够丰富,核心是由于基础大模型的能力所限,在复杂问题分析、多模态生成和理解等领域的效果还不尽如人意,用户使用大模型时惊喜不足。而且个人应用的数据,更多是使用偏好数据,并不能反哺基础大模型智能的提升,因此过去花钱买流量和用户的应用也没能构筑护城河,用户替换应用的成本较低,粘性不足。在当前基础大模型能力相对成熟的背景下,过去移动互联网赖以成功的平台效应有望再次发挥作用。更多用户使用AI应用,可以沉淀更多的优质共享知识、积累更多的用户反馈和社交互动等,从而让应用得以持续优化,并吸引更多的用户使用,形成良性的正循环。以腾讯元宝为例,采取DeepSeek+混元双模型引擎驱动的战略后,用户数直线上升, 今年2月至3月DAU(日活)增长超20倍。中国应用领先的优势有望进一步发挥,提效类的生产力工具日益强大,杀时间的陪伴类和文娱类应用体验不断优化。根据a16z投资机构3月发布的全球Top 50生成式AI应用报告,中国公司的应用有11款上榜,而去年8月仅有3款产品上榜,增速明显。AI新搜索、文生图/视频工具和角色扮演应用是排名前三的热点方向。但同时,个人应用创新仍然面临“苦涩的教训”( The bitter lesson) ,即人们反复尝试用工程手段提升性能,最终却总是被简单堆算力的方式超越。大模型能力的不断提升,会“吃掉”不少应用创新的功能,特别是工作流类的应用,更容易被大模型的新能力取代。如何在应用中加深护城河,需要更多第一性原理的思考,从而嵌入用户决策链条的关键节点去提升价值,增加用户的情感性认同,并通过生态协同,提升自身的不可替代性。可以说,技术迭代是矛,场景渗透是盾,生态协同是土壤,个人应用有时候要跑得快一点等大模型能力的提升,有时候又要慢一点思考大模型的演进路径,去构建技术+场景+生态协同的“动态能力组合”。基础大模型能力的升级,带来应用深度的能力解锁。第一波以ChatGPT为代表的大模型擅长对话,催生了AI新搜索Perplexity等应用。第二波以Claude 3.5 Sonnet为代表的大模型擅长编程,推动了估值百亿美金的Cursor和当红编程明星Devin等的火爆。第三波以Open AI o1为代表的大模型擅长深度推理,让Agent应用成为可能。特别是随着多模态、强化学习技术持续突破,模型的效果大幅提升、成本不断降低,可以预见,智能体应用将加速渗透到更多垂直领域,开启人机协作新纪元。智能体新时代正在走来。近期国内Manus应用的火爆,让业界对AI智能体的未来给予更多期待。无独有偶,OpenAI的自主电脑使用智能体Operator和深度研究智能体Deep Research已开启商业化试水,从实验室走向大众市场。据外媒报道,OpenAl计划以每月2000美元的价格向“高收入知识工作者”出售低端代理;中端代理每月收1万美元,用于软件开发;而高端代理作为博士级研究代理,每月收费 2万美元。据Gartner 预测,到2028年,33% 的企业软件应用将包含代理式人工智能,而2024年这一数字不到1%,且至少15%的日常工作决策将通过人工智能代理自主做出。人工智能代理市场将显着增长,从 2024年的51亿美元增长到2030年的471亿美元。Agent应用的深入,将推动Token消耗量呈百倍甚至更高量级的增长,由此带来推理算力需求的更大爆发,并超过训练算力需求。为提升能效比和降低成本,谷歌、亚马逊、Meta、OpenAI等大型云计算和大模型厂商均加速布局定制化ASIC,ASIC正逐步发展成为英伟达GPU之外的重要新技术路线。摩根士丹利预计,AI ASIC市场规模将从2024年的120亿美元增长至2027年的300亿美元,复合增长率达34%。与此同时,Agent的广泛使用将要求模型能处理更大规模的上下文,对模型基础能力的提升也带来更大挑战。以云的方式,让智能变成一种千行百业可按需调用的服务,将最终形成智力即服务(Intelligence as Service)的新形态。过去衡量经济发展和数字化水平,会看用电量、用云量,以后我们衡量智能的水平,可能要去看“用词量”(Token)。DeepSeek等大模型的火热,带来了模型效果的全面升级,激发了中国各行业拥抱大模型的新热潮。但当前,中美企业的生成式AI应用程度存在一定差距,中国企业应用大多处于试验阶段,离规模化使用还有距离。而美国企业应用更加广泛和深入,2024年美国企业全面实施生成式AI的比例达24%,明显高于中国的19%。美国政府和企业普遍采用公有云部署AI,支持AI快速迭代,超过70%的组织使用云端AI。受此推动,美国大公司最新一季度的云计算收入高速增长,如微软达到409亿美元,同比增长21%;亚马逊为287.86亿美元,同比增长19%;谷歌119.6亿美元,同比增长30%。高性价比正在推动行业应用走深。自ChatGPT发布两年多来,大模型性能持续提升,推理成本显著下降,如GPT-4o的API调用价格为每百万输出tokens 20美元,相比发布时下降了三分之二。当前国内DeepSeek V3的每百万Token 8元,混元多模态大模型TurboS每百万Token低至2元。在模型能力效果大幅提升的同时,还为各行业大范围部署提供了很高的性价比。近两个月来,行业大模型落地成效显著,已有政务、金融、医疗、教育、传媒、文旅等30多个行业落地,大幅提升效率的同时,也在重构原有流程。包括深圳宝安政务、深圳医保、上海徐汇城运中心、深圳大学、瑞金医院、上海医药、重庆农商行、荣耀等公司都积极部署并探索大模型应用。以深圳宝安政务大模型应用为例,已覆盖民生诉求、企业服务、政务办公、社会治理等31个业务场景,覆盖全区14个领域、20个行业近3万余条政府服务知识,整合了60多种模型能力,并可结合业务场景需要快速部署新的智能应用。行业应用中,优质数据是提效护城河。行业大模型比以往任何时候都更需要行业和企业内的优质数据,因为行业应用需要更准确、专业的知识,且对幻觉零容忍。在数据治理上的投入将获得事半功倍的效果。而这往往需要很大的投入,也被经常认为是苦活儿和累活儿,是行业落地中最容易被忽视的部分。未来,大模型不仅在各行业纵深发展,更将通过跨领域协同、中小企业普惠、社会系统重塑等路径,实现深度应用的立体化演进:从“场景适配”到“价值创造”,大模型从效率工具升级为业务增长引擎;从“信息孤岛”到“生态融合” ,跨领域数据的协同推动应用边界扩展;从“企业级应用”到“社会系统重构” ,技术渗透进入深水区,引发企业和社会组织模式、就业和分配结构、社会伦理规范等全方位变革