推荐语
深入解读大型语言模型的架构演进,探索人工智能的未来趋势。核心内容:1. 大模型架构的发展历程与核心转变2. 稠密型模型的设计原理及其优缺点分析3. 稠密模型的适用场景与未来发展方向
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
在人工智能快速发展的今天,大型语言模型(Large Language Models, LLMs)已成为推动自然语言处理和人工智能发展的关键引擎。从2017年Transformer架构的提出开始,大模型的设计思路经历了从传统递归神经网络(RNN)到注意力机制(Attention)为核心的转变,又逐步衍生出多种变体架构,如稠密模型(Dense)、混合专家模型(Mixture of Experts, MoE)、状态空间模型(State Space Model, SSM)、保留网络(Retentive Network, RetNet)等。不同架构各有其独特设计理念与优势,针对不同的应用场景和计算资源限制,研究人员不断探索能够提高模型效率、降低计算资源需求的新型架构。本文将系统性地介绍当前主流的大模型架构类型,分析它们的设计原理、优缺点以及适用场景,并探讨大模型架构未来的发展趋势。图1:大型语言模型架构的发展图谱 - 从传统RNN到现代各类架构稠密型模型是当前主流大模型的基础架构,基于Transformer的自注意力机制,模型中的所有参数在每次前向传播时都会被激活和使用。稠密模型通常由多层Transformer块堆叠而成,每个Transformer块主要包含多头自注意力(Multi-Head Self-Attention)和前馈神经网络(Feed-Forward Network)两个主要组件。图2:典型的Transformer架构,是稠密模型的基础在稠密模型中,计算复杂度与参数数量呈线性关系,性能提升通常依赖于增加模型参数规模。典型的稠密模型包括OpenAI的GPT系列、Google的PaLM、Anthropic的Claude以及Meta的LLaMA系列等。?
- 自注意力机制的计算复杂度为O(n²),处理长序列效率低
- 模型参数规模与部署难度成正比,对普通终端设备不友好
- 不专注于特定领域,而需要在多个领域有均衡表现的场景
?稠密模型的发展可能正接近"规模天花板"。虽然增加参数量曾是提升性能的首选策略,但这种方法面临日益严峻的效率挑战。未来的稠密模型可能不再单纯追求增加参数量,而是通过更精细的架构设计和训练方法优化,如参数高效微调技术(PEFT)、低秩适应(LoRA)等。同时,稠密模型与稀疏模型的混合架构可能会成为平衡性能和效率的主流方向。二、混合专家模型(Mixture of Experts, MoE)混合专家模型(MoE)是一种结合稀疏计算思想的大模型架构。与稠密模型不同,MoE在每次前向传播过程中只激活部分参数。MoE架构的核心是将传统Transformer中的前馈网络(FFN)替换为多个"专家网络"(Expert Networks)和一个"路由器"(Router)或"门控网络"(Gating Network)。图3:混合专家模型(MoE)的基本架构,展示了路由器如何将输入分配到不同专家在MoE架构中,路由器负责决定将输入的令牌(tokens)分发给哪些专家网络处理。通常采用Top-k门控策略,即每个输入只会被路由到k个专家(常见的是Top-1或Top-2)。这种设计使得MoE模型可以拥有比稠密模型多得多的参数,而计算效率却显著提高。# MoE层的伪代码简化实现
def moe_layer(x, experts, router):
# 计算每个专家的路由分数
routing_scores = router(x) # [batch_size, seq_len, num_experts]
# 选择Top-k专家
top_k_scores, top_k_indices = select_top_k(routing_scores, k=2)
# 将输入分发到选中的专家
outputs = []
for i, expert in enumerate(experts):
# 创建每个专家的掩码(哪些令牌被路由到此专家)
mask = (top_k_indices == i)
if mask.any():
# 只处理被路由到此专家的令牌
expert_input = x[mask]
expert_output = expert(expert_input)
outputs.append((mask, expert_output))
# 合并所有专家的输出
combined_output = combine_expert_outputs(outputs, shape=x.shape)
return combined_output
图4:MoE层集成到Transformer架构中的示意图
典型MoE模型GShard(Google,2020):将MoE引入Transformer架构,首次证明了大规模MoE模型的可行性。Switch Transformers(Google,2021):通过使用Top-1路由简化了MoE实现,大大提高了训练效率。Mixtral 8x7B(Mistral AI,2023):开源的MoE模型,拥有约470亿参数,但推理复杂度与12B参数的稠密模型类似。?MoE架构最具革命性的贡献在于它打破了"参数量与计算量成正比"的传统范式。通过稀疏激活,MoE开辟了一条增加模型容量而不同比增加计算成本的道路。未来MoE可能会朝着两个方向发展:一是更精细的自适应路由机制,如动态调整专家数量和分布;二是层次化专家结构,不同层使用不同的专家组合策略。此外,MoE与其他架构的融合(如MoE-Mamba)也展现出极大潜力,可以同时获得多种架构的优势。三、状态空间模型(State Space Models, SSM)状态空间模型(SSM)是近期出现的一类新型序列建模架构,其代表作是Mamba。SSM从控制理论中汲取灵感,将输入序列视为动态系统,通过状态变量(State Variables)来追踪系统随时间的演变。SSM结合了RNN的序列处理能力和CNN的并行计算效率,同时克服了Transformer处理长序列时计算复杂度高的问题。图5:Mamba模型架构图,展示了状态空间模型的选择性状态处理机制Mamba模型引入了"选择性状态空间模型"(Selective State Space Model,S6),使模型能够根据输入内容动态地决定哪些信息需要保留,哪些信息可以忽略。这种选择性机制使得SSM在处理长序列时既能捕捉到长期依赖关系,又能保持计算效率。# 连续时间SSM的数学描述
x'(t) = Ax(t) + Bu(t) # 状态更新方程
y(t) = Cx(t) + Du(t) # 输出方程
其中:
- x(t) 是n维隐藏状态向量
- u(t) 是输入向量
- y(t) 是输出向量
- A, B, C, D 是可学习的参数矩阵
为了在离散的计算环境中实现,SSM需要进行离散化处理,将连续系统转换为递归形式或卷积形式。Mamba在选择性SSM的基础上,通过硬件感知的算法优化实现了高效的训练和推理。?
- 与Transformer相比,缺乏平行处理多个关联项的能力
SSM家族模型S4(2021):结构化状态空间序列模型,奠定了SSM在深度学习中应用的基础。Mamba(2023):引入选择性机制的SSM,显著提升了性能和效率。Mamba-2(2024):探索SSM和结构化掩码注意力的对偶性,进一步提升了性能。MoE-Mamba(2024):结合MoE和SSM思想的混合架构,展示了架构融合的潜力。?SSM架构的突破性意义在于它重新思考了序列建模的基本范式。Transformer通过全局注意力以"广度优先"方式处理序列,而SSM更接近于"深度优先"的处理方式,利用状态传递高效捕捉长程依赖。这一转变可能会在两种方向上推动大模型发展:一是纯SSM架构的进一步优化,尤其是在选择性机制的设计上;二是SSM与Transformer的混合架构,结合两者的优势。值得注意的是,SSM架构的线性复杂度使得处理超长序列成为可能,这可能会催生全新的应用场景,如"无限上下文"助手、全书籍分析、基因组分析等。四、保留网络(Retentive Network, RetNet)保留网络(RetNet)是由微软研究院于2023年提出的一种新型序列建模架构,旨在结合RNN和Transformer的优势,同时避免它们各自的缺点。RetNet的核心创新在于提出了"保留机制"(Retention Mechanism)来替代Transformer中的自注意力机制,该机制支持三种计算范式:并行(Parallel)、递归(Recurrent)和分块递归(Chunk-wise Recurrent)。图6:RetNet架构图,展示了多尺度保留(MSR)机制替代注意力机制RetNet架构中的核心组件是多尺度保留(Multi-Scale Retention, MSR)模块,它使用指数衰减来加权过去的状态,从而实现高效的信息保留。与Transformer的自注意力不同,RetNet的保留机制避免了二次计算复杂度,同时通过递归表示支持O(1)复杂度的推理。# RetNet中保留机制的简化公式
# 并行表示(用于训练)
y_i = sum_{j≤i} exp(-(i-j)/γ) · (q_i · k_j^T) · v_j
# 递归表示(用于推理)
s_i = exp(-1/γ) · s_{i-1} + k_i · v_i
y_i = q_i · s_i
其中:
- q_i, k_i, v_i 分别是查询、键和值向量
- s_i 是隐藏状态
- γ 是衰减率参数
RetNet的设计使其可以:(1) 在训练时实现并行计算,提高训练效率;(2) 在推理时使用递归计算,降低内存需求和计算复杂度;(3) 通过分块递归处理长序列,平衡效率和精度。图7:RetNet与Transformer在推理效率和内存使用方面的比较
虽然RetNet是相对较新的架构,但已经在学术界引起了广泛关注。目前还没有大规模开源的纯RetNet模型,但已有研究表明,在大规模模型(6.7B参数)中,RetNet的推理速度比同等大小的Transformer快8.4倍,内存使用率提高70%。随着研究的深入,RetNet有望在更多大规模语言模型中得到应用,特别是在面向在线服务的场景中。?RetNet的设计哲学体现了大模型架构发展的一个关键趋势:重新审视传统RNN的优势,并寻求将其与现代架构相结合的方式。这种"回归创新"(regressive innovation)策略在AI架构演进中越来越普遍——不是彻底抛弃旧技术,而是从中提取精华并与新技术融合。RetNet的"REcurrent+attenTION=RETENTION"的命名正体现了这一点。未来RetNet架构可能会进一步优化多尺度保留机制,特别是在动态调整衰减率方面,使模型能更智能地决定哪些信息需要长期保留,哪些可以快速淡忘。此外,RetNet架构与MoE或量化技术的结合也是一个有前景的研究方向。五、递归神经网络及其变体(RNN and Variants)递归神经网络(Recurrent Neural Networks, RNN)是最早用于序列建模的深度学习架构之一。RNN的核心思想是维护一个隐藏状态(hidden state),该状态在处理序列时会不断更新,从而捕获序列的时间依赖关系。基本RNN存在梯度消失/爆炸问题,难以捕获长期依赖关系,因此产生了多种改进变体,如长短期记忆网络(LSTM)和门控循环单元(GRU)。虽然RNN在2017年后的大模型时代逐渐被Transformer取代,但其思想却在新型架构(如RWKV、RetNet和Mamba)中得到了重生。例如,RWKV(Receptance Weighted Key Value)模型采用了线性注意力机制,使模型可以像Transformer一样并行训练,又能像RNN一样递归推理。# 基本RNN递归公式
h_t = tanh(W_h · h_{t-1} + W_x · x_t + b)
y_t = W_y · h_t + b_y
# LSTM递归公式(简化版)
f_t = sigmoid(W_f · [h_{t-1}, x_t] + b_f) # 遗忘门
i_t = sigmoid(W_i · [h_{t-1}, x_t] + b_i) # 输入门
o_t = sigmoid(W_o · [h_{t-1}, x_t] + b_o) # 输出门
c_t = f_t * c_{t-1} + i_t * tanh(W_c · [h_{t-1}, x_t] + b_c) # 单元状态
h_t = o_t * tanh(c_t) # 隐藏状态
RWKV(Receptance Weighted Key Value)RWKV是一种混合了RNN和Transformer特性的架构,由研究者彭博首次提出。它使用线性注意力机制,使得模型可以:
RWKV通过引入R(Receptance)、W(Weight)、K(Key)和V(Value)四个关键组件,实现了高效的时间混合(Time-Mixing)和通道混合(Channel-Mixing)。
?RNN架构的"复兴"反映了大模型发展的辩证规律:在向新技术迈进的同时,重新评估"旧"技术的价值。随着计算资源需求的不断增加,研究人员重新审视了RNN的优势并将其与现代架构结合。RWKV、RetNet和Mamba等架构都借鉴了RNN的递归思想,同时解决了传统RNN的局限。未来可能会出现更多这类"混合范式"架构,它们将在保持高性能的同时,大幅提高计算效率。特别是在边缘计算和资源受限环境中,这类架构可能成为主流选择。此外,RNN的思想对于处理超长序列(如整本书、长期对话历史)具有天然优势,可能会在这些新兴应用场景中发挥关键作用。六、多模态大模型架构(Multimodal LLM Architectures)多模态大模型(Multimodal LLMs)是能够同时处理和理解多种数据类型(如文本、图像、音频、视频等)的模型。随着研究的深入,多模态架构逐渐形成了几种典型类型,主要可分为以下四类:?在这种架构中,不同模态的信息通过标准的交叉注意力层深度融合到LLM的内部层。模型使用特定于模态的编码器处理不同的输入,然后通过交叉注意力机制实现模态间的交互。典型代表有Flamingo、OpenFlamingo和PaLI-X等。☺️此类架构也将输入模态深度融合到模型内部层,但不使用标准的交叉注意力,而是采用特定设计的定制层。例如,LLaMA-Adapter系列模型使用可学习的门控机制来控制不同模态信息的融合。其他代表有CogVLM、mPLUG-Owl2等。?这是最常用的多模态架构类型之一。与类型A和B不同,类型C架构中的模态编码器输出直接送入模型的输入端,而不涉及模型的内部层。这种架构通常使用预训练的LLM作为解码器,结合轻量级的连接模块(如线性层、MLP或Q-former)来处理模态信息。典型代表有BLIP-2、LLaVA、InstructBLIP等。?在类型D架构中,多模态输入首先通过分词(tokenization)处理,可使用通用的分词器或特定于模态的分词器。然后将分词后的输入提供给预训练的LLM或编码器-解码器模型。这种设计使模型可以自回归地生成不同模态的标记。代表模型有LaVIT、CM3Leon、VL-GPT等。多模态大模型架构正在快速发展,未来可能会朝着以下几个方向演进:
- 任意到任意(Any-to-Any)模型:能够接收任何模态的输入并生成任何模态的输出,如Gemini Ultra、GPT-4o等。
- 模态无关的架构设计:发展通用的架构,能够以相同的方式处理不同模态的信息,降低对特定模态处理的依赖。
- 更高效的模态对齐技术:改进模态间的对齐和融合方法,使模型能更好地理解跨模态的关系。
- 新型分词和编码方法:开发更高效的多模态分词器和编码器,提高模型处理不同类型数据的能力。
- 架构与底层基础模型的解耦:使多模态能力成为可即插即用的模块,便于与不同基础模型组合。
?多模态架构的演进反映了AI朝着更类人感知方向发展的趋势。人类理解世界时自然地整合视觉、听觉等多种感官信息,而AI系统正通过架构创新实现类似的能力。未来多模态架构可能会打破当前"以文本为中心"的范式,发展出真正的多模态思维——模型内部表示将不再偏向任何单一模态,而是形成一种跨模态的抽象语义空间。此外,随着多模态架构与其他先进架构(如MoE、SSM)的结合,我们可能会看到更高效的多模态模型出现,它们不仅能理解多种输入,还能以极低的计算成本实现。最终,这些发展可能导致AI系统对世界的理解更加全面和深入,从而在人机交互、内容创作、科学研究等领域开启新的应用可能。不同架构在各方面性能上有显著差异,下表提供了一个综合对比:
- 通用AI服务:Dense架构(如GPT系列)提供最稳定的性能
- 推理延迟要求低:SSM、RetNet或RNN变体更合适
- 内存受限环境:避免选择MoE,优先考虑SSM或RNN变体
- 需要工具生态支持:Dense和MoE架构拥有更丰富的工具
- 愿意承担技术风险:新型架构可能提供更好性能/成本比
近期研究表明,结合多种架构的优势可能产生更强大的模型。一些有前景的混合策略包括:
- MoE-Mamba:结合MoE的专家路由和Mamba的高效序列处理
- Sparse-RetNet:在RetNet基础上引入稀疏激活
- Transformer-SSM混合模型:在不同层使用不同架构,如浅层使用SSM处理长序列,深层使用Transformer进行推理
- 架构自适应模型:根据输入内容和计算资源动态选择最适合的架构
?大模型架构的未来可能不是某一种架构的"胜出",而是多种架构的共存和专业化。就像生物进化中不同物种各自适应特定生态位一样,各类架构也将在特定应用场景中找到各自的位置。Dense架构可能继续主导需要稳定性和可预测性的通用服务;MoE架构可能在超大规模知识应用中占据优势;SSM和RetNet等新架构可能在长序列处理和资源受限环境中脱颖而出。更有趣的是,我们可能会看到"混合种"的出现——结合多种架构优势的新型模型,它们不再严格遵循某一单一架构范式,而是根据任务需求灵活选择和组合不同架构元素。这种"架构多样性"将加速AI能力的扩展,使大模型能够适应更广泛的应用场景。
- 计算效率优先:随着模型规模不断扩大,计算效率将成为架构设计的首要考量。MoE、SSM、RetNet等高效架构将得到更广泛的应用。
- 硬件协同设计:架构设计将更加关注与特定硬件平台的协同优化,如专为GPU/TPU/ASIC设计的算法和数据流。
- 动态与自适应:未来架构可能具备更强的动态性和自适应性,能根据输入内容和资源约束自动调整计算方式。
- 长序列处理能力:处理超长文本的能力将成为架构设计的关键考量,SSM和RetNet等架构在这方面具有先天优势。
- 多模态无缝集成:架构设计将更加关注多模态信息的无缝处理,打破模态边界。
?
- 民主化AI:高效架构降低门槛,使更多组织能部署大模型
- 边缘AI:适合资源受限环境的架构推动边缘设备的AI应用
大模型架构的演进历程展示了AI技术发展的动态性和创新性。从最初的RNN到现代的Transformer,再到新兴的MoE、SSM和RetNet等架构,每一次架构创新都为AI能力带来质的飞跃。当前,我们正处于大模型架构多元化发展的时代。Dense模型凭借其稳定性和普适性仍占据主导地位;MoE架构通过稀疏激活大幅提升计算效率;SSM和RetNet等新架构则为长序列处理和高效推理提供了新思路。不同架构各有优缺点,适合不同的应用场景和资源约束。未来,大模型架构可能不会形成单一的主导范式,而是呈现多样化发展态势。架构间的融合与创新将持续推动AI技术向前发展,使大模型能够适应更广泛的应用场景,服务于更多元的人类需求。对研究者和实践者而言,了解各类架构的原理与特点,并根据具体需求选择合适的架构,将是充分发挥大模型潜力的关键。大模型架构演进的历程印证了计算机科学中的一个重要原则:没有放之四海而皆准的最佳解决方案,只有最适合特定场景的设计选择。未来的AI将不再是单一架构的时代,而是多元架构共存、互补和协作的新纪元。
- Vaswani, A., et al. (2017). "Attention Is All You Need". NeurIPS 2017.
- Brown, T., et al. (2020). "Language Models are Few-Shot Learners". NeurIPS 2020.
- Fedus, W., et al. (2022). "Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity". Journal of Machine Learning Research.
- Gu, A., et al. (2023). "Mamba: Linear-Time Sequence Modeling with Selective State Spaces". arXiv:2312.00752.
- Sun, Z., et al. (2023). "Retentive Network: A Successor to Transformer for Large Language Models". arXiv:2307.08621.
- Peng, B., et al. (2023). "RWKV: Reinventing RNNs for the Transformer Era". arXiv:2305.13048.
- Zhai, S., et al. (2022). "LiT: Zero-Shot Transfer with Locked-image Text Tuning". CVPR 2022.
- Shazeer, N., et al. (2017). "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer". ICLR 2017.
- Alayrac, J. B., et al. (2022). "Flamingo: a Visual Language Model for Few-Shot Learning". NeurIPS 2022.
- Gu, A., et al. (2024). "Mamba-2: Improving State Space Models with Attention". arXiv:2405.21060.