你的位置：尊龙颜值巅峰时期 > 新闻动态 > 大模型行业深度：大模型研究框架（2025）_DeepSeek_训练_推理

大模型行业深度：大模型研究框架（2025）_DeepSeek_训练_推理

发布日期：2025-05-24 02:10 点击次数：153

大模型发展回顾：以Transformer为基，Scaling law贯穿始终。2017年谷歌团队提出Transformer架构，创造性推动注意力层以及前馈神经网络层的发展，加速提升模型性能。2018–2020年是预训练Transformer 模型时代，GPT-3以1750亿参数突破大规模预训练的可能性界限，而SFT及RLHF等技术帮助模型加速对齐人类价值观。此后随着训练侧Scaling Law 描述的幂律关系出现收益递减，叠加高质量文本数据或逐步被AI耗尽，推理模型开始进入人们视野；以OpenAI发布o1-preview将AIME 2024的模型回答准确率从GPT4o的13.4%提升至56.7%，模型维持加速迭代更新。

幻影视界今天分享的是“大模型”系列报告：《计算机行业深度：大模型研究框架（2025）》，报告由国海证券发布。

研究报告内容摘要如下

国内大模型：行业充分竞争，降本提效为主旋律

展开剩余90%

国产大模型生产蓬勃发展。据工信部数据，截至2024年10月，现有完成备案并上线为公众提供服务的生成式人工智能服务大模型近200个，注册用户超过了6亿，相较2024年初实现了翻倍以上的增长。

国产模型中，典型代表包括不限于：具备先发优势的百度文心一言、清华大学学术血脉的智谱清言、B端市场发力的讯飞星火、文字生成领域具备领先优势的Kimi、媲美Sora视频生成能力的可灵、聚焦B端发力的华为盘古、霸榜开源社区下载量的Qwen、依托腾讯生态优势的元宝、依托字节巨大流量入口的豆包以及凭借算法优化媲美GPT-o1的DeepSeek。

海外大模型进展：资源头部集中，压铸AGI

海外头部大模型依托资源壁垒形成强马太效应。大模型随着2022年ChatGPT的发布进入大众视野，同时与OpenAI资源匹敌的Google、Meta同样成为了底层模型的主要竞争者，Google、Meta基于自身超过30亿的用户体量，不断基于用户数据反哺模型训练；而亚马逊则通过投资Anthropic来布局AI领域。当前海外主流的AI模型竞争玩家包括技术能力以及用户数全球领先的OpenAI系GPT模型、依托亚马逊/谷歌投资的Anthropic模型Claude、谷歌自研模型Gemini、Meta自研模型Llama、马斯克旗下自研模型xAI等。

模型架构的演进：从Dense到MoE，模型大幅降本提效

MoE（Mixture of Experts，混合专家模型）是一种用于提升深度学习模型性能和效率的技术架构。其主要由一组专家模型和一个门控模型组成，核心思想是在处理任务时只激活部分专家模型，并通过门控模型控制专家模型的选择和加权混合。简言之，MoE在训练过程通过门控模型实现“因材施教”，进而在推理过程实现专家模型之间的“博采众长”。

从Transformer架构上看，MoE使用稀疏的MoE层代替稠密的前馈网络（FFN）层，专家可以是FFN，也可以是更复杂的网络，甚至是MoE本身，这样就会形成有多层MoE 的MoE；而门控网络或者路由来决定将哪个token 发送给哪个专家。

DeepSeek提出DeepSeekMoE，在传统MoE架构之上继续降本提效。包括：1）细粒度专家分割：在保持模型参数和计算成本一致的情况下，用更精细的颗粒度对专家进行划分，更精细的专家分割使得激活的专家能够以更灵活和适应性更强的方式进行组合；2）共享专家隔离：采用传统路由策略时，分配给不同专家的token可能需要一些共同的知识或信息，因此多个专家可能会有参数冗余。专门的共享专家致力于捕获和整合不同上下文中的共同知识，有助于构建一个具有更多专业专家且参数更高效的模型。

负载均衡：MoE架构下容易产生每次都由少数几个专家处理所有tokens的情况，而其余大量专家处于闲置状态，此外，若不同专家分布在不同计算设备上，同样会造成计算资源浪费以及模型能力局限；负载均衡则类似一个公平的“裁判”，鼓励专家的选择趋于均衡，避免出现上述专家激活不均衡的现象。DeepSeek在专家级的负载均衡外，提出了设备级的负载均衡，确保了跨设备的负载均衡，大幅提升计算效率，缓解计算瓶颈。

DeepSeek带动纯强化学习新范式，引领通向AGI之路

DeepSeek探索LLM在没有任何监督数据的情况下发力推理能力的潜力，通过纯RL（强化学习）的过程实现自我进化。具体来说，DS使用DeepSeek-V3-Base 作为基础模型，并使用GRPO（群体相对策略优化）作为RL框架来提高模型在推理中的性能。在训练过程中，DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。

经过数千次RL 步骤后，DeepSeek-R1-Zero 在推理基准测试中表现出卓越的性能。例如，AIME 2024 的pass@1 分数从15.6%增加到71.0%，在多数投票的情况下，分数进一步提高到86.7%，与OpenAI-o1-0912的性能相当。

GRPO相对PPO节省了与策略模型规模相当的价值模型，大幅缩减模型训练成本。

传统强化学习更多使用PPO（近端策略优化），PPO中有3个模型，分别是参考模型（reference model）、奖励模型（reward model）、价值模型（value model），参考模型作为稳定参照，与策略模型的输出作对比；奖励模型根据策略模型的输出效果给出量化的奖励值，价值模型则根据对策略模型的每个输出预测未来能获得的累计奖励期望。ppo中的价值模型规模与策略模型相当，由此带来巨大的内存和计算负担。GRPO（群里相对策略优化）中省略了价值模型，采用基于组的奖励归一化策略，简言之就是策略模型根据输入q得到输出o（1，2，3），再计算各自的奖励值r（1，2，3），而后不经过价值模型，而是制定一组规则，评判组间价值奖励值的相对关系，进而让策略模型以更好的方式输出。

DeepSeek带动模型加速私有化+低成本部署趋势

DeepSeek引领大模型开源且低成本部署潮流，模型普世化趋势逐步明确。以DeepSeek为例，基于DeepSeekMoE架构，每次推理的时候仅激活37B 参数；同时通过MLA等低秩分解的方式实现显存占用的大幅降低，推动计算资源以及内存消耗。

DeepSeek R1/V3模型保持开源的同时，并在2月最后一周开源五大核心代码库，加速行业模型降本增效趋势。本地化部署DeepSeek-R1-32B及以下模型仅需要消费级显卡。从本地化部署DeepSeek所需硬件需求上看，本地化部署满血版的DeepSeek R1需要2 台A100服务器（单台8卡）；而部署32/70B的蒸馏版模型，只需要4090显卡，而对于7/8/14B等小参数模型，只需要3070/3080等基础消费级显卡即可。

幻影视界整理分享报告原文节选如下：

本文仅供参考，不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读，用户获取的资料仅供个人学习，如需使用请参阅报告原文。

发布于：广东省

上一篇：印度尼西亚基准股票指数上涨2%至6,436.90点下一篇：日系女神新垣结衣, 有女妖且丽, 裴回湘水湄。水湄兰杜芳, 采之将寄谁

大模型行业深度：大模型研究框架（2025）_DeepSeek_训练_推理

推荐资讯

推荐资讯

热点资讯

最新资讯

友情链接：