1.3算力
大模型热潮进一步推动计算底座迭代升级。主要表现三大趋势特点:
芯片架构定制化以迎合Transformer计算特性,如英伟达的Transformer引擎和Etched的Sohu芯片;
存储与互联重要性提升,头部硬件厂商创新升级重点从卷算力向卷内存、卷互联转变,如 AMD MI300X 宣传时已淡化算力色彩,重点突出显存和互联指标,英伟达B200 显存容量和显存带宽提升幅度,均超过算力提升幅度;
软硬协同升级,如 AMD更新扩展了专为语言大模型所设计的 vLLM 库支持;英伟达参与 FlashAttention 3 注意力算法设计,速度提升 1.5-2 倍。
2
大模型技术展望
无论是从OpenAI这样的人工智能头部企业的动态来看,还是从AI技术大佬的观点、前沿论文研究的热度来看,迈向通用人工智能的路线图已基本清晰:单模态 — 多模态 — 多模态理解和生成的统一 — 世界模型 —AGI(通用人工智能)。 单模态是指模型只处理单一类型数据的输入(单一的文本、声音、图片、视频)。 多模态大模型是指文本、声音、图片、视频这些内容实现了初步的融合,但能力还是比较初级。比如GPT-4V可以理解输入的文字与图像,但生成能力弱,Sora可以根据输入的文字、图像生成视频。但这个阶段的多模态融合还不彻底,“理解”与“生成”两个任务是分开进行的,造成的结果是GPT-4V理解能力强但生成能力弱,Sora生成能力强但理解能力有时候很差。当理解与生成统一之后,就可以与具身智能结合起来,让模型与物理世界进行交互,自己收集环境数据,从而进一步建立世界模型。 世界模型是模拟人类自然形成的世界心智模型--我们通过感官获取信息并在大脑中形成对世界的理解和预测。世界模型旨在让机器创建对世界运作方式的内部表征,并具备推理行动后果的能力。有了世界模型,机器才真正理解这个世界运行的物理的、化学的、生物的、社会的法则,并趋利避害地采取行动。 在世界模型的基础上,再加上复杂任务的规划、抽象概念归纳的能力,自我学习能力,就有可能实现AGI。 2024年我们正处在路线图的第二个节点处。因此展望2025年,沿着这条路线图继续走下去,大模型将在三个维度同时深入发展,即:智能本质探索、能力扩展、应用实践。 向AGI通用人工智能的目标前进,必然要深入探寻智能的本质。在探寻智能的本质方面,目前也有三个方向: 今年9月,OpenAI推出新款AI大模型o1,用“慢思考”模式大大地增强了ChatGPT推理能力,解决复杂问题能力远超GPT-4o。12月初,OpenAI在发布会上又展示了一种叫“强化微调”的算法,开发者只需提供最低「几十个」高质量的任务数据,就能实现领域专家模型的定制,进一步拓展了“慢思考”的训练。因此可以预测,2025年在大模型的缩放定律支配下,基于“慢思考”的基础模型会遍地开花般大爆发,模型推理能力得到进一步提升。 OpenAI的o1模型提升推理能力的主要思路是基于提示词中的思维链。先激发模型将中间步骤用自然语言写出来,然后再依据中间步骤得到最终答案。问题是: 自然语言真的是推理的最佳方法吗?语言到底是用于思考还是用于交流的?心算也可以推理,为什么一定要用自然语言把这些推理步骤和逻辑表达出来呢? 不久前,田渊栋团队最近发表了一篇关于增强大模型推理能力的论文《Training Large Language Models to Reason in a Continuous Latent Space》(《在连续潜在空间中训练大型语言模型进行推理》),在X上讨论热度前所未有,其中单人转发的浏览量就高达 20 多万!这篇论文革命性提出了直接在模型的隐藏层展开思维链思考,只有在输出答案或者交流时才输出语言的token。详见本公众号文章《机器推理的突破?田渊栋团队的关于增强大模型推理能力的热门论文》。 无独有偶,年底OpenAI的o3模型发布,提出了引入了“私人思想链”(private chain of thought)功能,这一机制允许模型在给出最终答案前,“暂停”语言的token的输出,先进行内部评估再回答,显著提高了推理准确性。虽然目前这项技术的细节还不清楚,但我高度怀疑,这项技术就是田渊栋团队所提出方案的前奏实现版本。 有句俗话讲“人狠话不多”。真正深思熟虑的谋划计算是在沉默状态下的。现在的大模型这种需要一五一十地用自然语言、自言自语的将中间过程写下来的推理方法,注定是个初级版本。2025年大模型在沉默思考方面的突破值得关注。 近日,OpenAI联合创始人Ilya在演讲中称:“我们所熟知的预训练即将终结,接下来将是超级智能:智能体、推理、理解和自我意识”。如何深刻理解这句话? 我认为Ilya的主要意思是:现有大模型的能力是由人类数据、标签或偏好来驱动训练。是一种知识灌输型的训练。未来大模型的能力是由自身驱动的,依靠递归式自我改进获得能力增强的。 一种名为“苏格拉底式学习”的全新AI自学模式被DeepMind提出,借鉴古希腊哲学家苏格拉底提出的一种教育方法。这种全新的AI自学模式,强调通过对话和提问来引导对方自主思考和探索真理。这种学习模式的核心在于,在一个封闭的系统内,各种AI智能体通过与自身或其他的智能体的互动和提问来提升能力,无需外部世界的干预。 这种AI自学模式结合了AI智能体、强化学习、思维链和合成数据等技术,允许AI智能体进行自我博弈,生成数据并完善技能,递归结构使系统能够自主创建和开局新游戏,解锁更抽象的解决问题的能力并扩展其能力。这种自学模式是有成功先例的!围棋AlphaGo就是通过大量自我对弈,最终掌握了围棋的精髓,达到了超越人类选手的水平。 苏格拉底有句名言:教育的真谛不是灌输而是点燃,一万次灌输不如一次真正的唤醒。这种自身驱动的,依靠递归式自我改进获得能力增强的训练方法,在2025年值得期待。 在大模型能力扩展方面,主要表现在多模态方面和端侧模型的能力会有较大的突破进展。 多模态的模型架构与性能会得到提升,逐步推进到“统一理解和生成”阶段。研究人员会探索更高效的模型架构,如改进 Transformer 架构或提出全新架构,以更好地融合不同模态数据,提升模型对多模态信息的理解和生成能力。通过优化训练方法和参数调整,提高模型在复杂多模态任务中的准确性和效率,减少动作变形、物体消失等生成错误,提升画质、流畅性等性能指标。 例如:短视频的构成要素涵盖了背景音乐、文案撰写和真人演出。在文案撰写方面,技术已经相当成熟。至于背景音乐,大型AI模型所创作的音乐在风格多样性和质量上均已达到较高水平,目前所缺乏的是一个广受欢迎的标志性曲目。因此,当务之急是实现视频内容的自动化生产。从消费者市场的应用前景来看,预计到2025年,许多经验丰富的视频制作公司和基础模型提供商将集中精力在这一领域寻求突破。 当前,由于模型对硬件要求仍然比较高,在前端应用的大模型并不普遍,到了2025年,预计这些模型的应用将显著增加。 一个推动因素是:随着消费环境的演变,预计2025年推出的智能手机将更多地集成人工智能功能。这些前端模型将成为智能设备的标配,并且随着模型压缩技术的进步,这些技术将在智能手机中的应用将更加成熟。另一个因素是:芯片制造商具备强大的芯片设计能力,目前,模型开发商与芯片制造商之间已经形成了一些有效的合作模式,正向智能手机制造商提供前端模型。
前端模型已开始渗透到如下关键领域:
首先可穿戴设备(如AI眼镜、AI耳机),将实时录音录像的功能与多模态AI融合,即时解决各种问题,可以帮用户识别眼前事物、文字翻译等。
其次是PC端的使用场景。用户出于数据隐私考虑,希望在本地使用大模型,避免相关数据的泄密风险,同时在某些弱网或断网情况下,很多用户也有在 PC 上使用大模型的 AI 助手的需求。如智谱清言就发布了英特尔酷睿Ultra专享版,满足PC上使用大模型的需求。
最后是与机器人结合的具身智能,将广泛应用于家庭服务、工业生产、教育、养老、陪伴等场景。2025 年被认为是人形机器人商用化量产元年,国内外科技巨头纷纷加码,人形机器人产业将迎来高速发展期。
在应用实践方面,主要是基于RAG和AI Agent智能体技术的行业应用。 2025年RAG的工程化会越来越成熟。基于传统 RAG 已经提升到 RAG 2.0。RAG技术会与结构化的知识图谱结合(如GraphRAG)提高推理能力;与Agent智能体结合,形成Agentic RAG,提高RAG执行多样化任务的能力。这些不同的 RAG 路线,可以理解为不同的工程化策略和手段,这些工程化的策略和手段越来越丰富,也意味着工程落地的条件也会越来越成熟。 首先强调一点,智能体(AI Agent)不是一种大模型的新技术,而是大模型应用形态的创新。传统的大模型应用形态是针对大模型一问一答。智能体将大模型视为中心调度的大脑。 AI Agent能够感知环境,具有主动性、决策能力、学习能力和适应能力,能够处理复杂请求,整合多来源信息,将用户请求分解为子问题,创建详细计划解决问题,通过工具调用、工作流、人机交互等方式,快速理解和响应产业需求,拓宽大模型应用场景,助力企业数字化转型和智能化升级。2025年随着大模型推理能力越来越强,有关智能体的行业应用将遍地开花。 2024年是AI时代迈向一个新阶段(多模态)的开局之年。2025年必将是这个阶段巩固与深化发展之年,技术体系和产业生态将加速构建。前沿成果会继续令我们应接不暇,商业机会也会层出不穷。我们无法成为技术前沿的开拓者,唯一能做的是紧紧地跟在那批先知先觉的人后面。。。