链载Ai

标题: 万字综述,讲一讲这两年大模型这整个领域到底发展了哪些方面 [打印本页]

作者: 链载Ai    时间: 3 小时前
标题: 万字综述,讲一讲这两年大模型这整个领域到底发展了哪些方面

一、2023年的GPT-4开始

唯参数规模论时代的终结

1.1 2023年基线:GPT-4范式

在2023年初,LLM领域的发展遵循着一条清晰而有力的轨迹,规模决定能力,所以当年的爆火词就是Scaling Laws,更大的参数,更大的计算量,更大的数据规模。

这一理念的顶峰体现便是OpenAI的GPT-4,作为2023年当时最先进的AI,GPT-4被呈现为一个大规模的典范,基础架构依然是Transformer,但是拉长参数量,看上去就可以很好的work。尤其它在多种专业和学术基准测试中展现出与人类相当的水平,例如在模拟律师资格考试中取得了排名前10%的成绩,而前身GPT-3.5的得分则位于后10%。

相较于GPT-3.5,GPT-4的关键进步体现在几个方面。首先是上下文窗口长度的极大扩展,提供了8K和32K两种规格的上下文长度,远超前代的4K和2K,有点像当年软盘时代,内存从1K到1M的变化。这使得模型能够处理更长、更复杂的任务,OpenAI也宣称GPT-4在可靠性、创造力,甚至处理细微指令的能力上均优于GPT-3.5。

不过GPT-4的发布也让OpenAI有了个别名,CloseAI,就是因为架构保密。在技术报告中,OpenAI明确表示,出于竞争格局和大规模模型的安全影响的考量,将不提供关于架构(包括模型参数大小)、硬件、训练计算量、数据集构建或训练方法的任何细节。这个决定引发了社区关于透明度的广泛讨论,也使得外界对内部工作原理的理解主要依赖于间接推测和性能分析。当时一直有说法GPT-4拥有高达1760B的巨大参数量,但这从未得到官方证实,可它进一步强化了当时业界普遍持有的 Scaling-is-all-you-need 的信念,当时很多说法都是 GPU集群/数据量/更大的参数量 is all you need。

GPT-4的成功,给整个领域指明了一条通过不断扩大模型规模和数据量来提升智能水平的路径。

1.2 Scaling范式中浮现的裂痕

随后到2024年,直到年底,一年多的时间该挖的数据、该买的算力、该请的人才都到位了,但还没出现GPT5,唯规模论的范式,迎来了深刻反思和系统性挑战。这一时期的模型演进并非由单一技术突破驱动,而是源于对现有范式局限性的多方面冲击。

1. 对效率的迫切需求:传统Transformer架构的注意力机制具有与序列长度成二次方关系的计算复杂度(O(L^2)复杂度),加之密集型(Dense)模型高昂的推理成本,共同构成了一个严重的性能瓶颈。这极大地限制了上下文长度的扩展和模型的实际部署,从而催生了对稀疏架构和新型注意力机制的迫切需求。

2. 对推理的迫切需求:业界逐渐认识到,单纯的规模扩张并不能赋予模型强大的、多步骤的逻辑推理能力。模型在面对需要复杂规划和逻辑演绎的任务时,依然表现不佳。这一瓶颈促使研究方向发生根本性转变,从完全依赖预训练阶段的计算投入,转向在推理阶段分配额外计算资源,即思考(thinking)模型的诞生。

3. 智能体的迫切需求:随着模型推理能力的增强,下一个重点目标是让模型能够根据推理结果采取行动。这要求模型不仅能思考,还能与外部工具和环境进行交互,从而执行复杂任务,这标志着智能体AI(Agentic AI)时代的产生。

这三者有相互关联的驱动力,并非孤立存在,而是构成了一条紧密相连的因果链,清晰地勾勒出2023至2025年间前沿模型架构的演进脉络。效率的提升是实现经济可行的推理模型的前提,而强大的推理能力则是构建有效智能体的基石。

这条演进路径的逻辑为:

1. 需要对架构进行改进:密集型Transformer模型的计算和内存开销是核心痛点。为了处理更复杂的现实世界问题,模型需要更大的上下文窗口来容纳所有相关信息,并需要更复杂的内部处理流程。然而,O(L^2)的复杂度和巨大的KV缓存使得这一需求在经济上和技术上都难以为继。因此,架构上的效率创新成为第一要务。混合专家(MoE)架构通过稀疏激活来降低计算量,而线性注意力等机制则直接攻击了二次方复杂度的瓶颈。这些在第二部分将详细分析的创新,为后续发展铺平了道路。

2. 需要提升可解释性,找到新的增长范式:一旦模型的基础架构在效率上得到优化,实验室便有了资本去探索计算成本更高的推理过程。在推理时进行thinking,也就是让模型在给出最终答案前进行一系列内部的、复杂的思考步骤,只有在底层架构已经足够高效的前提下才具有经济可行性,不然thinking一次巨长时间又巨贵,没什么可用性。没有MoE或线性注意力等技术降低基础成本,为每一次查询增加数倍乃至数十倍的thinking计算量是无法想象的。

3. 需要有商业价值,有用:一个能够进行多步推理并形成复杂计划的模型固然强大,但一个能够利用工具去影响其他系统,做出实践的模型,才具有真正的变革性。因此,Agent能力的开发,成为应用推理能力的自然延伸。它是这条因果链的第三个环节,也是最高阶的体现。一个模型只有在能够高效地进行深度思考之后,才能可靠地决定何时、如何以及使用何种工具来完成任务。

二、2024年至今对效率的迫切需求

2.1 稀疏化的兴起:混合专家(MoE)架构

混合专家(Mixture-of-Experts, MoE)架构是这一时期应对效率挑战最核心的策略之一,基本思想是用大量小型的专家网络替换Transformer中密集的、计算量巨大的前馈网络(FFN)层。

这样对于输入序列中的每一个token,一个门控网络(gating network)或称为路由器(router)的机制会动态地选择一小部分专家来处理它。按这个模式,模型的总参数量可以急剧增加(比如R1直接到671B的总参数量),但每次前向传播(即推理)时实际激活的参数量和计算量(FLOPs)却只占一小部分(比如R1实际上只激活37B),从而实现了经济的训练和高效的推理。

2.1.1DeepSeek的开创性MoE推进

DeepSeek是推广和开源MoE架构的重要部分,从V2开始,到R1等系列模型清晰地展示了MoE架构的演进和威力,到现在基本全是MoE的模型。

2.1.2 Qwen的混合产品组合策略

阿里的Qwen团队采取了独特的市场策略,Qwen3系列同时提供了密集模型(最高32B)和MoE模型(如30B-A3B,235B-A22B)。这个策略是对不同市场需求的应对性玩法,密集模型通常具有更可预测的性能和更简单的微调流程,适合寻求稳定性的企业用户。MoE模型则代表了技术前沿,以极致的规模和性能吸引高端用户和研究者,这种双轨并行的产品线,让Qwen能够在不同的细分市场中都保持竞争力,尤其是二次开发的衍生模型,Qwen一直在HF都是排名第一的衍生模型,大量的科研和二次开发都是基于Qwen2.5,用LLaMA的越来越少。

2.1.3Minimax-m1的混合MoE

最近6月刚发且开源的Minimax的m1模型也采用了混合MoE架构,拥有32个专家。模型总参数量为456B,每个token激活45.9B参数。这再次印证了约10:1的总参数与激活参数之比,已成为大型MoE模型的一个行业基准,主要也带来了超长上下文方面的提升,整体的性能可以看表,还是表现的很不错的。

2.2 注意力机制革命,超越二次方缩放

如果说MoE解决了FFN层的计算开销,那么新的注意力机制则旨在攻克Transformer架构的另一个核心瓶颈,自注意力机制(self-attention)与序列长度L的二次方计算复杂度O(L^2),这一瓶颈是限制模型处理超长上下文(如百万级token)的主要障碍。

2.2.1DeepSeek的多头潜在注意力(MLA)

2.2.2Minimax-m1的闪电注意力(Lightning Attention)

2.2.3 Qwen2.5分组查询注意力(GQA)

Qwen2.5在技术报告中,明确提到了架构中集成了分组查询注意力(Grouped Query Attention, GQA),以实现更高效的KV缓存利用。虽然GQA不像MLA或闪电注意力那样具有革命性,但它已成为现代LLM中一项标准的、必不可少的优化技术,用于在性能和效率之间取得平衡。

2.2.4效率作为战略护城河

对效率架构的选择,已不仅仅是技术层面的决策,更是一种核心的商业战略,深刻地定义了各个AI实验室的竞争地位。开源社区和闭源巨头在此展现出截然不同的策略。

一方面,以DeepSeek和Qwen为代表的开源力量,选择将架构创新公之于众。他们详细地公布了MLA、MoE的具体实现方式以及稀疏注意力框架的技术细节。核心价值主张是:以远低于专有模型的成本,提供接近业界SOTA的性能,并附加了架构透明度,方便开发者进行定制和研究。这一战略直接冲击了AI技术的高成本壁垒,通过开源和性价比来占领市场。

另一方面,以OpenAI和Anthropic为代表的闭源领导者,同样在效率上投入巨资(例如,GPT-4o的API价格比GPT-4 Turbo便宜50% ),但他们选择将具体的实现细节作为商业机密。他们将效率提升所节省下来的计算资源,再投资到计算成本更高昂的专有功能上,例如扩展思考(extended thinking)或智能体工具使用(agentic tool use)。对他们而言,护城河并非效率本身,而是由效率所解锁的、难以复制的独特能力。

这种战略分化创造了一个动态的竞争格局,开源模型不断拉低标准推理服务的价格,迫使闭源领导者必须持续创新,推出新的、能证明高昂定价和专有性质的尖端功能。因此,对效率的追求成为了整个领域发展的引擎,它既驱动了基础能力的“商品化”,也催生了新功能前沿的不断开拓。

三、2025年来推理Thinking走向台前

3.1 CoT的逐渐拉长

这个新范式将计算开销的重心从预训练阶段部分转移到了推理阶段。核心理念是,模型在生成最终答案之前,花费额外的计算资源来生成一段内部的思考链(CoT,chain of thought),从而在需要逻辑、数学和规划的复杂任务上实现性能的巨大飞跃。这标志着模型从静态的知识检索向动态的问题解决能力的演进。

3.1.1OpenAI的o系列(o1, o3, o4-mini)

3.1.2Anthropic的Claude系列的混合推理

3.1.3 Google的Gemini 2.5,屠榜的存在

Gemini 2.5 pro preview 0605最近屠榜了,样样都是第一,直接看下图。

另外还短时期流传出了Kingfall这个模型,也支持推理模式,据说性能极其的牛,但我还没试过,可以参考这篇文章:如何评价Google泄露AI模型KingFall,其性能和现有顶尖模型相比有提升么?

https://www.zhihu.com/question/1917689645715677739/answer/1918068480168691553

3.1.4Qwen的方法

3.2 为推理而训练,强化学习的演进角色

强化学习(RL)的角色在这一时期发生了根本性的转变。它不再仅仅是用于对话对齐(如RLHF)的工具 ,而是成为了教授模型如何进行推理的核心方法,推理时间也成为了新的Scaling Laws。

Thinking范式的出现,为扩展AI性能引入了一个全新的、正交的轴线:推理时计算。这从根本上改变了AI实验室的经济模型和发展重点。在此之前,AI的进步主要沿着训练时计算和参数数量这两个轴线来衡量。主流的假设是,用更多数据训练一个更大的模型,它就会变得更聪明。这是2024年之前的旧轴线。

然而,o系列及同类模型证明,对于一组固定的模型权重,通过增加推理期间使用的计算量,可以极大地提升模型在复杂任务上的表现。o1的技术分析中有一张图表明确显示,在AIME基准上的准确率随着测试时计算量的增加而提升,这便是新轴线的直接证据。

这一转变带来了深远的、高阶的影响。首先,它预示着对推理硬件的需求将大规模增长,而不仅仅是训练硬件。运行一次查询的成本不再是固定的,而是根据问题的难度动态变化,这为硬件市场带来了新的增长点。其次,它将研究重点从单纯地扩大预训练规模,转向开发更高效的推理算法(如在思考链中进行更优的搜索或规划)和更有效的RL技术来引导推理过程。另外它也催生了新的产品设计和商业模式,Model is the product的商业模式正在演变,以适应这个新维度,催生了如Gemini Flash与Pro、o4-mini与o3这样的分层产品,其中Thinking成为一个关键特性和差异化卖点,允许客户根据任务需求购买相应水平的智能。

3.2.1DeepSeek-R1的RL优先流水线

3.2.2Minimax-m1的CISPO算法

3.3 从理想到行动:智能体工具使用的黎明

一旦模型具备了推理和规划的能力,合乎逻辑的下一步就是让它能够通过与外部工具交互来执行计划。这正是AI智能体的定义。

3.3.1OpenAI的o3和o4-mini

3.3.2Anthropic的Claude 4

四、当前综合与竞争格局

4.1 各大模型的架构哲学比较

4.2 这两年主要LLM架构列表对比

4.3 推理与Coding的Benchmark表现

截止到今年6月的表现如下:

模型架构的演进直接导致了Benchmark评估的分化。传统的NLP基准测试,如MMLU(大规模多任务语言理解),正迅速变得饱和,对于区分前沿模型的能力越来越有限。与此同时,一类专注于复杂推理(如GPQA, AIME)和智能体执行(如SWE-bench, Terminal-bench)的新基准,已成为衡量SOTA的真正标准。

这一转变的背后逻辑是:随着模型普遍能力的提升,它们在MMLU等知识密集型、选择题式的基准上的得分开始聚集在高端区间,难以拉开差距。2025年AI指数报告明确指出了MMLU、GSM8K和HumanEval等传统AI基准的饱和。作为回应,学术界和工业界将注意力转向了能够有效测试新一代推理能力的基准。AIME(高难度数学竞赛)、GPQA(需要研究生水平知识的问答)以及特别是SWE-bench(要求模型像软件工程师一样修复真实的GitHub问题),现在已成为Claude 4、o3和DeepSeek-R1等模型发布公告中反复引用的事实标准。

这一转变的更高阶影响是,SOTA的定义本身发生了变化。它不再是一个单一的、普适的头衔。一个模型可能在一个维度上是SOTA,但在另一个维度上则不是。例如,根据SWE-bench的领先表现,Anthropic的Claude 4被定位为SOTA的编码智能体。而OpenAI的o3/o4-mini则凭借在AIME上的卓越成绩,成为数学和推理领域的SOTA。Google的Gemini 2.5 Pro则在上下文处理和多模态能力上独占鳌头。这种由架构选择驱动的专业化,意味着选择最佳模型已成为一个依赖于具体用例的决策过程,反映出一个日益成熟和多样化的市场。

五、未来轨迹与结论

5.1 也许是具身智能与世界模型

当前在推理和智能体方面的趋势,是通向具身智能(Embodied AI)的直接前导。感知、推理、规划和行动的闭环,正是具身智能体的核心工作流程。像Claude 4这样直接就是Product应用能力的模型,以及OpenAI的智能体框架,是模型从控制软件工具迈向控制机器人执行器的第一步。

核心挑战在于将模型从数字世界迁移到物理世界。物理世界施加了严格的实时约束,而当前LLM的顺序执行、逐帧处理的架构并非为此设计。未来的研究,如Corki框架所提出的,将致力于算法与硬件的协同设计,通过让LLM预测未来的运动轨迹而非单一的、离散的动作,来解耦高延迟的LLM推理与低延迟的机器人控制。这预示着“世界模型”(World Models)——即能够理解和预测物理世界动态的AI系统将成为下一个研究热点。

5.2 对后Transformer架构的探索

尽管Transformer架构在过去几年取得了辉煌的成功,但固有的局限性也日益凸显,例如在处理某些组合性推理任务时的困难以及二次方复杂度问题。因此,学术界和工业界正在积极探索替代方案,尽管目前还没有任何架构能够完全取代它。 这些探索包括状态空间模型(State Space Models, SSMs),但研究表明,与Transformer相比,SSMs在需要从上下文中复制信息等任务上存在不足。目前,大多数所谓的“后Transformer”研究,实际上更侧重于改进而非取代Transformer。例如,通过提出新的层归一化方案(如ResiDual)来稳定深度Transformer的训练 ,或者开发更高效的长上下文处理方法 ,这些都是在现有范式内的增量创新。

5.3 整体结论,现代AI架构的三大支柱

回顾2023年至2025年6月的这段关键时期,可以清晰地看到,大型语言模型领域完成了一次深刻的战略转向。它不再是单一地追求规模(Scale),而是转向了一个由三大新支柱构成的、更加复杂和强大的多维发展策略:

1.效率(Efficiency):通过稀疏化(MoE)和先进的注意力机制(MLA、混合注意力)实现。效率创新使得巨大的模型规模和超长的上下文处理在经济上变得可行,为后续发展奠定了基础。

2.推理(Reasoning):通过将计算资源重新分配到推理阶段(“思考预算”)以及利用先进的强化学习技术训练模型涌现出解决问题的能力来实现。这使得模型从知识的存储器转变为问题的解决者。

3.智能体(Agency):作为推理能力的应用,它使模型能够自主地使用工具与数字乃至物理世界进行交互。这是将模型智能转化为实际行动的关键一步。

这一演进将大型语言模型从复杂的文本预测器,转变为初具形态的通用问题解决系统,为未来十年的人工智能发展奠定了坚实的架构基础。在这场新的竞赛中,胜利不再仅仅属于规模最大的模型,而是属于那些最有效率、思考最深刻、行动最强大的系统。







欢迎光临 链载Ai (https://www.lianzai.com/) Powered by Discuz! X3.5