信通院王蕴韬：大语言模型核心架构演进态势分析

作者：中国信息通信研究院人工智能研究所副总工程师，高级工程师王蕴韬责任编辑：包建羽 2025.06.11 09:43 来源：信息通信技术与政策

0 引言

自Transformer架构提出以来，围绕其架构的创新一直是产学研各界的研究焦点。总体来看，对于其注意力机制的补丁式创新和替代性创新成为了主要研究方向。补丁式创新主要采用更为简单的算子或精度来模拟注意力机制的计算，替代性创新主要通过其他算法替代注意力机制来挖掘上下文关系。除此之外，越来越多回归循环神经网络（Recurrent Neural Network，RNN）的算法架构及对于多层感知机（Multi-Layer Perceptron，MLP）架构的创新百花齐放，为未来算法架构的创新探索打下了坚实基础。

1 Transformer的不可能三角

Transformer架构的有效性很大程度上来源于注意力（Attention）机制，而注意力机制的特点在于其ON2的复杂度与多头机制的并行性，这样在词元（Token）生成类任务上，由于每步的二次复杂度和KV缓存的内存限制，在推理过程中往往表现出较低的效率。如果降低注意力机制的计算复杂度，能够较好提升推理效率，但这就牺牲了模型精度和效果；基于传统RNN的模型可以达到较好的效果和高效的推理效率，但由于没有多头机制，无法实现高效的并行训练，因此无法扩大规模。因此，模型架构面临着一个不可能三角的问题，分别是并行训练、低成本推理和良好的扩展性能。如何平衡好这三点，成为优化与改进Transformer结构的核心指导思路。

2 针对Transformer自身的改进

自2017年Attention is all you need论文发表以来，以Transformer为核心架构的大模型蓬勃发展，总体来看呈现出了两类架构演进态势：一类是对Transformer模块的改进；另一类是对Transformer子层的改进。这些改进主要是针对Transformer原始架构进一步提升上下文能力，减小计算量消耗，提升模型效率及可扩展性。

2.1 针对Transformer模块的改进

针对Transformer模块的改进主要可以分为5个方向[1]。一是减少内存占用和计算量。对于Transformer的核心优化在于其消耗计算资源的自注意力机制（Self-Attention），目前主要通过减少不必要的计算和数据存储，优化其计算效率，包括限制注意力的计算范围，近似原始计算以降低复杂度，对基础算子进行优化（如TimeMixer++[2]），采用模型压缩和内存优化技术以及引入其他算法（如残差自注意力、累积自注意力机制）。在实现这些改进时，需要在计算效率和模型性能之间取得平衡，确保在降低资源消耗的同时，模型的准确性和泛化能力不受显著影响，代表性架构还包括Lite Transformer[3]、Funnel Transformer[4]、DeLighT[5]、RealFormer[6]等。二是优化自适应计算时间。Transformer中顺序计算的次数与输入大小无关，而只取决于层数，这使得它在计算上不具备通用性或图灵不完备。Transformer对所有输入都使用相同的计算量将降低计算效率。因此以Universal Transformer[7]为代表的架构应运而生，其特点是模型可以根据输入数据的复杂程度，用RNN网络来动态学习并决定模型在每个位置上迭代的次数，同时引入了一个停顿概率，来判断模型在每个位置计算是否需要继续迭代，直到满足某个阈值条件为止，代表性架构还包括Conditional Computation Transformer[8]、DeeBERT[9]。三是使用循环或分层的结构。如Transformer-XL[10]通过引入相对位置编码和段落级别的循环机制，能够更好适应不同长度输入，将前一段隐状态作为当前段输入，以此形成循环机制，既能够更好保持长序列信息，又能够更好利用段落的上下文信息，通过循环机制有效解决了标准Transformer在处理长序列时的局限性，代表性架构还包括Compressive Transformer[11]、Memformer[12]。又如Hi-Transformer[13]使用了分层的设计方法，将输入数据分成不同的层次进行处理，通过在较高层次上聚合信息，使模型能够更好地捕捉全局上下文，代表性架构还包括HIBERT[14]、Vision Transformer[15]、TimeSformer[16]。四是使用其他方式对Transformer架构进行优化，如可微分架构搜索（Differentiable Architecture Search）[17]使用了神经架构搜索架构搜索最佳网络结构，又如Macaron Transformer[18]通过自注意力层和前馈网络层交替排列的方式实现特征提取和上下文建模之间更好的融合，代表性架构还包括Sandwich Transformer[19]。

2.2 针对Transformer子层的改进

总体来看，Transformer模块一般包括4个子层：位置编码；多头注意力（Multi-head attention）；层归一化的残差连接；位置前馈网络。

目前针对多头注意力机制的改进较多，主要聚焦于降低注意力机制的计算复杂度，或改变注意力机制使其能够学习更多的内容。许多方法可以降低注意力机制的复杂性[20]。一是采用低阶近似值的方式降低注意力机制计算复杂度，如Linformer[21]、Performer[22]、Nystromformer[23]、Synthesizer[24]。二是使用稀疏的注意力机制，将注意力机制的复杂性降低到序列长度的线性，如Longformer[25]通过固定给定令牌可以参加的位置来增加稀疏性。又如Reformer[26]，通过对输入令牌进行排序或聚类来引入可学习的稀疏性，代表性架构还包括Big Bird[27]、Performer[28]、Routing Transformer[29]。三是改进多头注意力机制，如注意力头被允许相互交流或共享信息[30]，学习最佳的注意力跨度，并在不同的注意力头中使用不同的注意力跨度，代表性架构包括Talking-heads Attention[31]、Multi-Scale Transformer[32]、Mixture of Head Attention[33]。

对于位置编码来说，目前主要使用了四种位置编码方式进行优化：绝对位置编码（如标准变换器的位置编码）；相对位置编码（例如在Transformer-XL中）；具有绝对和相对位置信息的混合编码（如Roformer[34]）；以其他方式提供序列顺序信息的隐式编码（如R-Transformer[35]）。

在残差连接以及前馈网络方面，主要修订包括改变多头注意力机制和位置前馈网络后的残差块，包括设置层归一化的位置、用其他方式替换层归一化、完全删除层归一化，或引入逆残差层以节省内存（用于Reformer）。对于改变位置前馈网络的方法，包括改变激活函数、增加其表征能力或删除前馈网络等也都涉及到了相关的修改。近期英伟达推出了nGPT[36]架构，对包括嵌入、多层感知机（MLP）、注意力矩阵、隐藏状态等向量全部在超球面上归一化为单位范数，实现了上下文越长，训练速度越快。

3 Transformer与其他架构的结合

除了对于Transformer自身架构进行调整和完善，产业界和学术界也都围绕提升模型效率、可扩展性及其性能做了架构创新，采用了Transformer架构与其他架构混合的方式进行探索，以发挥各自的优势，提升模型的整体性能。

3.1 CNN与Transformer的结合

尽管Transformer在自然语言处理中表现出色，但在图像处理中，卷积神经网络（Convolutional Neural Network，CNN）在特定任务上仍然具有效率和结构优势。混合架构利用Transformer的长程依赖处理能力以及CNN的局部特征提取能力，在需要同时关注细节和全局信息的任务中取得了优异表现。如Swin Transformer引入了局部注意力机制，与卷积操作进行结合，表现了良好的扩展性和效率；视觉Transformer（Vision Transformer， ViT）将图像划分为小块，然后使用Transformer处理，以捕获全局的图像特征；Conformer在语音识别中，将CNN和Transformer结合，既能提取局部特征，又能建模长距离依赖；ConvNeXt使用改进的卷积操作和网络架构，能够捕捉长距离依赖关系，实现全局信息的融合，与自注意力机制的功能相似。

3.2 RNN与Transformer的结合

尽管Transformer在处理长序列时表现优异，但RNN（尤其是LSTM和GRU）在建模时间序列或动态序列任务上仍具优势。将RNN的动态序列建模能力与Transformer的全局依赖能力结合，可能在某些任务上实现突破。如LSTM + Transformer架构作为一种混合深度模型，近年来在学术界和工业界都受到了极大的关注，该混合架构在序列分析任务上取得了绝佳表现，在文本生成、机器翻译、时间序列预测等多个领域取得了突破性进展，架构如BiLSTM-Transformer[37]，以及本文第二部分提到的Transformer-XL和Universal Transformer，包括更早些时候如2019年提出的R-Transformer、Compressive Transformer等都是代表性案例，同时如RNN + Transformer架构在教学系统应用[38]、神经网络机器翻译[39]、语音识别[40]等都取得了优异表现。

3.3 GNN与Transformer的结合

图神经网络（Graph Neural Networks， GNN）在处理图结构数据（如社交网络、知识图谱、分子结构等）方面具有独特优势，并逐渐发展出一些适合扩展到大模型的架构。Transformer可以扩展GNN的感知范围，GNN可以帮助Transformer捕捉复杂的图结构信息，并有效从相邻节点聚合信息。如图注意力网络（Graph Attention Networks，GAT）引入了图数据的注意力机制，能够让节点动态调整其邻居的重要性，类似于Transformer的注意力机制，但适用于图结构。随着数据规模的扩大，GAT的改进模型，如Graphormer、图变换网络（Graph Transformer Network，GTN）不断在处理大规模复杂图数据上取得进展。

3.4 混合专家系统

混合专家模型（Mixture of Experts， MoE）指将多个子模型（专家模型）组合起来的架构，可以在处理复杂任务时根据输入的不同特征动态选择激活某些专家子模型。这种架构特别适合大规模分布式系统。如GShard和Switch Transformer模型，通过引入大量的专家子模型，根据输入动态选择活跃的专家，极大地提升了模型容量和性能。又如早期的稀疏门控专家混合模型（Sparsely-Gated Mixture of Experts），通过稀疏激活的方式来仅调用一部分专家网络，减少计算资源的消耗。近期出现的混合专家统一转换器（Mixture-of-Experts Universal Transformers，MoEUT）[41]允许统一转换器（Universal Transformers，UT）以计算和内存高效的方式进行扩展，解决了UT基础计算参数比问题。随着计算资源和模型规模的增加，MoE的架构可能成为未来大模型架构的一个重要方向。

4 非Transformer架构的算法创新

自2022年以来，也出现了一些新的非Transformer的算法和架构，主要创新点在于对于注意力机制的替代，完全脱离了Transformer架构中最为核心的QKV及前馈神经网络（Feed-Forward Neural Network，FFN）的算法体系，同样得到了学术界及产业界的关注，甚至在某些领域已经取得了超过Transformer架构的性能表现。

4.1 回归RNN架构的创新

RNN架构凭借强大的顺序和上下文感知能力曾在各类任务上表现惊艳，但受到反向训练瓶颈，因规模定律（Scaling Law）而跌落神坛，但如RWKV、Mamba、xLSTM等RNN衍生模型接连出现，在多项任务中取得了超过Transformer的优异表现。

RWKV[42]模型将RNN的时间递归特性与Transformer的并行计算能力相结合。它采用类似RNN的结构，但在训练和推理时具备Transformer级别的性能，能够高效处理长序列数据。RWKV在开源社区受到热烈关注。一些开发者开始在自然语言处理任务中应用RWKV，以验证其在实际场景中的性能和效率。

状态空间模型（State Space Model，SSM）[43]利用连续时间的线性动态系统，通过递归和卷积操作，高效建模长序列数据。S4模型是其中的代表，采用特殊的参数化方法，使得模型在处理长序列时既高效又稳定。SSM和S4在语音识别、时间序列预测等任务中表现出色，受到学术界的重视。一些研究者开始将其应用于自然语言处理等领域。S5模型是对S4的改进，进一步优化了状态空间模型的计算效率和稳定性。通过结合循环、卷积和连续时间模型的优势，S5能够高效并行地处理超长序列数据。

Mamba架构[44]受益于SSM的思想，在S4的基础上增加了选择机制，因此Mamba架构有时也被称为S6。它通过高效的自注意力机制、层次化特征提取和适应性计算来减少计算复杂度和内存占用，同时增强对输入序列的理解能力。与传统Transformer相比，Mamba在计算效率和性能上都有显著提升，尤其在自然语言处理和计算机视觉任务中表现优越。该架构已在学术界和产业界获得关注并应用于多种复杂任务。

xLSTM架构[45]采用更复杂的门控结构，提高了对输入、遗忘和输出信息的管理能力，有效解决了RNN可能的梯度消失问题，同时它引入了选择性记忆机制，允许模型在每个时间步选择性地更新状态，而并非强制更新所有状态，同时该架构允许一定程度的并行计算，提升了处理长序列时的计算效率。与Transformer相比，xLSTM需要更少的计算资源，因此对于实时或资源受限的应用场景更为合适。

近期，Bengio团队对传统的两种RNN架构LSTM和GRU进行了大刀阔斧的改造，从中诞生了两个新模型：minLSTM和minGRU[46]，通过从其输入、遗忘和更新门中删除其隐藏的状态依赖关系，将不再需要反向传播计算，同时二者使用的参数比传统版本大量减少，且在训练期间能够实现完全的并行化（长度为512序列速度提高了175倍，长度为4 096序列速度提高了1 300倍），实现了和Mamba类似的效率。

4.2 非注意力机制的创新

Hyena Hierarchy[47]是一种基于长距离卷积的序列建模方法，旨在替代Transformer中的注意力机制。它通过分层的卷积操作，能够高效捕获序列中的长程依赖关系，同时显著降低计算复杂度和内存占用。Hyena在学术界引起了广泛关注，被认为是可能替代Transformer的高效架构之一。目前，该模型正处于研究和实验阶段，实际应用还在探索中。

RetNet[48]引入了保留机制（Retention Mechanism），作为Transformer中自注意力机制的替代。该机制通过参数化的指数衰减函数，隐式地捕获序列中的依赖关系，具有线性计算复杂度和更好的扩展性。RetNet由Meta AI提出，作为一种新兴的序列建模架构，引起了学术界的兴趣。目前，研究者们正对其在大规模语言模型中的性能进行评估。

MLP-Mixer[49]是谷歌公司在2021年提出的模型，但在2022年及以后仍有广泛的研究和应用。该模型完全基于MLP，没有使用卷积或自注意力机制。MLP-Mixer通过交替应用Token-Mixing和Channel-Mixing层，能够在整个序列范围内混合信息，捕捉长距离依赖关系，实现了与自注意力机制类似的全局信息交互。

ConvMixer[50]将卷积操作与MLP-Mixer架构相结合，提出了一种纯卷积的模型，能够在不使用自注意力机制的情况下达到与Transformer类似的性能。该模型通过对图像进行分块并应用深度卷积，实现高效的特征提取和融合。ConvMixer在图像分类任务中取得了竞争性的结果，引起了计算机视觉领域的兴趣。一些研究正在探索其在其他任务和领域中的应用潜力。

FNet[51]同样由谷歌公司于2021年提出，使用傅里叶变换替代了自注意力机制。模型通过对输入序列应用二维快速傅里叶变换，将时间域的信息转换到频域。在傅里叶变换后，应用非线性激活和前馈网络，丰富特征表示。傅里叶变换具有全局性，可以快速捕捉序列中所有位置之间的关系，实现在频域内的全局信息交互，从而替代自注意力机制。

总体来看，非Transformer架构之所以能够实现与自注意力机制相同的功能，一是在于采用了不同算法实现了全局信息交互，这些模型通过傅里叶变换、长卷积、跨位置的MLP等方式，实现了在序列中全局范围的信息混合和交互，能够捕捉到长距离的依赖关系。二是能够实现相较自注意力机制更为简单的计算方式。相比自注意力机制的O（n2）时间复杂度，这些模型采用了O（n\logn）或O（n）的计算方式，提高了对长序列的处理效率。三是能够有效捕捉长距离依赖关系。通过递归、卷积和频域转换等方法，这些模型能够有效地对序列中远距离元素之间的关系进行建模，与自注意力机制的核心功能相当。四是能够实现模型参数的压缩和优化。上述模型采用参数共享、分层结构等方式，减少模型参数数量，降低计算和存储成本。

4.3 多层感知机架构的创新

柯尔莫哥洛夫-阿诺尔德网络（Kolmogorov-Arnold Network，KAN）[52]是基于柯尔莫哥洛夫-阿诺尔德超越定理的一种神经网络架构。该定理由苏联数学家安德雷·柯尔莫哥洛夫和他的学生弗拉基米尔·阿诺德提出，指出任何多元连续函数都可以表示为一系列一元连续函数的有限组合。这为神经网络的构建提供了理论基础，使得可以通过一元函数的组合来逼近任意复杂的多元函数。根据万能逼近定理，为了提升模型精度，需要不断提升模型的宽度，如果需要做出一个无穷精度的模型，则需要训练一个无穷宽度的网络，这显然是不可行的。KAN网络使用一元函数的组合来逼近多元函数的方法，相当于提出了一个用有限大小网络实现无穷精度模型的方式，如果说多层感知机是对大脑中的神经元模仿，那么KAN更像是视网膜中神经元的模仿，其节点和节点间链接与传统多层感知机网络正好颠倒了过来。目前为止，KAN网络可以仅通过三层架构方式就拟合绝大部分复杂函数，但这只是理论数据，尚未有实验数据就KAN与Transformer架构进行对比。

5 大语言模型架构未来发展浅析

预测下一个Token是否就能实现通用智能的论断仍存在争论，规模定律还能延续多久也难以判断，但可以看到的是，“分久必合，合久必分”的态势再次得到了印证，收敛至Transformer的算法架构再次呈现了发散态势。

中短期来看，预训练大模型路线将持续收获规模定律（Scaling Law）红利。正如萨顿所说，以算力提升模型水平仍有较大的探索空间。随着RNN、Transformer等新老架构的不断革新，更为精细经济的尺度定律将平衡好参数、数据及算力的关系，在保持性能的基础上有效降低参数规模，从而降低计算成本。

长期来看，非Transformer的其他人工智能技术创新同样更需要重视。人工智能在问题求解、知识推理和规划、不确定知识和不确定推理、沟通、感知和行动等领域也同样取得了重要进展。在大模型之前出现的众多算法，如强化学习（2015年）、进化算法（2002年）、记忆增强网络（2014年）、胶囊网络（2017年）、元学习（2017年）、持续学习（2017年）、认知架构（1990年）、生物启发计算模型（2015年）等概念也在各自领域发挥着关键作用。随着Transformer算法的发散，能够持续发挥规模定律的新架构有较大概率仍通过对已有架构的创新融合来实现，过于超前的架构难以形成学术与产业的可持续闭环，也无法与已有计算设施高效衔接，但同样需要注意的是，不同于传统数字芯片的模拟新计算范式或创新提速，光电计算、量子计算、生物计算等其他计算范式探索也将迈出坚实步伐。

6 结束语

基于Transformer架构的补丁式创新主要涌现于架构刚提出时期，近两年则主要聚焦于注意力机制以及多层感知网络的替换式创新，重新回归改进后能够并行计算的RNN架构也成为近期研究热点。除架构创新外，在推理阶段依托强化学习思维链增加推理能力，或通过提升模型精度等方式，为继续收获规模定律提出了短期新思路，但实现通用人工智能路径万千，未来其他尚未被工业界验证的“隐形赛道”架构仍需更多理论研究和实践探索。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动