小参数出奇迹！360开源最强14B推理模型，端侧部署春天来了？

原创参商 2025-03-17 12:41 北京

卷王诞生

作者｜参商

编辑｜星奈

媒体｜AI大模型工场

“人工智能教父”、“深度学习三巨头”Geoffrey Hinton曾擘画端侧大模型的终极蓝图：“会有一个阶段，一旦某个AI系统训练完毕，我们会将其运行在非常低功耗的系统上，所以，如果你想让你的烤面包机能和你对话，你需要一个只花费几美元的芯片，而且它能运行像ChatGPT这样的程序。”

虽然这种“极致轻量化部署”目前还不能实现，但如今，行业进化的趋势却将这一预言逐步应验，即致力于为大模型“降本增效”，以较小的模型实现更低的部署成本、更快的响应速度以及更广泛的应用场景。其中，最引起轰动的莫过于DeepSeek。

DeepSeek通过创新的训练策略显著降低了AI模型的训练和推理成本，其V3模型仅用约2000张H800 GPU训练，总成本不超过600万美元，使得AI开发、使用门槛大幅降低。然而，即使是DeepSeek把AI成本“砍一刀”后，对于中小企业应用部署而言仍有一定门槛——部署满血版DeepSeek动辄需要数万元硬件投入，如果“退而求其次”部署低参数版本，性能也随之直线滑坡。

如今，难题迎刃而解。如果说DeepSeek把AI成本“砍了一刀”，那么360此次出手，可以说让DeepSeek应用成本进一步“击穿地心”：

前两天，360智脑开源最强14B数学推理模型Light-R1-14B-DS及Light-R1-32B、Light-R1-7B-DS系列，并把SFT和RL的数据、代码、技术报告一起开放。其中，Light-R1-7B-DS作为最强7B推理模型，无需量化即可端侧部署；Light-R1-14B-DS数学成绩超越绝大多数 32B 级模型以及DeepSeek-R1-Distill-Llama-70B，将“轻量高效能”优势发挥到极致……

360是如何做到的？此次360高调出手“砍一刀”，又将引发哪些蝴蝶效应？

Light-R1系列何以成「最强」：

多项技术突破，低成本复现DeepSeek-R1

360智脑团队近期开源的Light-R1系列模型，标志着推理模型轻量化技术的几大突破。首先，性能碾压更高参数模型，经得起AIME24这种“难度天花板”级的硬核数学竞赛检验，在低成本复现 DeepSeek-R1 方面迈出了重要一步：

此前，行业尽管已经有许多开源玩家尝试在 72B 或更低的模型上复现 DeepSeek-R1，但在艰难的数学竞赛AIME24 上没有一个能取得与DeepSeek-R1-Distill-Qwen-32B 的得分72.6 类似的表现，值得一提的是，360的工作在 QWQ-32B发布之前就已开源了。

最终，Light-R1-14B-DS数学成绩超越绝大多数 32B 级模型，在数学竞赛AIME24、AIME25中分别取得74.0、60.2的高分，双双超越了 DeepSeek-R1-Distill-Llama-70B同期分数（70分、54.1分）。

其次，是领域专精与泛化能力的双重突破，“既要又要”照进现实。经GPQADiamond 评测一役，铁板钉钉的结果显示，其具有“举一反三”的能力：

虽然Light-R1系列仅使用数学数据训练，但模型在其它能力上仍然表现出强泛化性。在包含生物学、化学和物理学领域博士级科学问题的GPQADiamond 评测集测试中，7B 得分49.4、 14B 得分61.7，分别超过了 DeepSeek-R1-Distill-Qwen-7B的49.1、DeepSeek-R1-Distill-Qwen-14B的59.1，表明即使只训练单项也不会对模型造成灾难性遗忘。

这验证了 “深度领域优化提升泛化能力” 的可能性：通过高难度数学问题的强化学习，模型形成了结构化推理的底层能力，有望迁移至科学计算、金融建模等需严格逻辑的场景。

值得一提的是，此次360低成本复现 DeepSeek-R1，是经得起检验的真·复现，带着“不怕验、随便验”的硬核底气：

此前一些玩家在拿 DeepSeek-R1 作为实验对照组时，始终无法复现其在报告中的分数，普遍评测分偏低，然后就偷偷蛐蛐别人测的不准，自己的得分就是比别人高，被网友调侃为“人不行怪路不平”。

而360基于deepscaler-release中的DeepScaleR的评估代码，能够完全复现 DeepSeek-R1 和QWQ-32B 公布的评测结果（得分相差在1分左右），同时，评测脚本也已经在 github 上开源，可以去复现，就是这么刚！

那么，360具体是如何实现的？采取了哪些技术路径？

解码「最强」背后的技术路径：

多阶段课程vs强化学习诞生卷王！

我们先来看从零复现了满血版 DeepSeek-R1-32B：在Light-R1-32B 的训练上，360采用了 SFT 和 DPO 的课程学习方法。

其中，SFT（Supervised Fine-Tuning）即监督微调是基于标注数据的精细调优方法，通过高质量标注样本（如专家解题步骤）对预训练模型进行领域适配，大体分为两阶段：先使用基础数学数据（筛选自AIME old等各种开源数据集），构建初步推理能力；阶段2则聚焦高难度数据，针对性强化复杂问题解决能力。

通俗来说就是由浅入深，“先学新概念1再学新概念2”。

同时，SFT具有领域快速适配优势：仅需少量标注数据即可将通用模型转化为数学专精模型，同时，稳定性高，标注数据的确定性避免了强化学习的探索风险，适合冷启动阶段，成本可控。

而DPO （Direct Preference Optimization）则是一种通过人类偏好数据直接优化模型输出的方法，其优势主要体现在简化流程、提升效率、降低资源消耗等方面。

接着，Light-R1-14B-DS 上，360将DPO替换为 GRPO，上演“小模型玩转强化学习”：GRPO 是 DeepSeek 团队提出的强化学习方法，过“群体智慧”替代单一价值模型评估策略，核心优势在于提升训练效率、增强稳定性提升复杂任务推理能力，数学推理、代码生成等需深度逻辑的任务。

这让行业看到，强化学习（RL）永不过时——通过“试错-反馈”机制模拟人类学习过程，通过试错和延迟奖励机制，自主习得最优决策策略以最大化长期累积奖励，是解决复杂序列决策问题的核心技术。目前开源项目中，能够完全成功复现强化学习效果的主要是 DeepScaleR-1.5B-Preview，但是这只是一个 1.5B大小的模型，在更大的模型上，目前很少有。

而360偏偏迎难而上，以Light-R1-14B-DS上进行了大规模强化学习训练，训练数据来自OpenR1-Math-220k等公开数学数据集。功夫不负有心人，在 RL 训练过程中，终于观察到了预期的现象：响应长度与验证分数同步提升。这意味着其通过学习不断“打怪升级”，最终顺利完成从“初学者”到“深度推理学霸”的能力跃迁。

这是行业首次成功在 14B 级别推理模型上应用RL并取得明显效果，在进一步提升推理准确率、使其长板更长的同时，也保持其他技能不掉点。

技术的硬核突破扇动“蝴蝶翅膀”，在应用端，正掀起变革风暴。

DeepSeek开好头，360掀起冲击波：

AI普惠未来可期

《孙子兵法》中，讲过“以正合，以奇胜”：正者，兵之常道；奇者，兵之变道，在战争中，既要遵循常规，又要敢于出奇制胜。

AI落地战也是一样，一味卷参数并不是落地的最优解。此前，DeepSeek在成本下降方面带来的冲击波就引起广泛讨论：创新不一定需要依赖最先进的硬件，而是可以通过巧妙的工程设计和高效的训练方法来实现。正如经济日报指出，这种技术突破降低了AI大模型的硬件门槛和能源消耗，为AI技术的普及铺平了道路。较小的模型意味着更低的部署成本、更快的响应速度以及更广泛的应用场景。

诚如所言，如今，360进一步DeepSeek-R1的复现成本降低，本质上是以算法创新带来算力平权：当14B模型性能超越70B级商业产品，意味着中小企业无需依赖天量算力即可获得顶级推理能力，无需购置专业GPU服务器，仅用消费级设备即可完成模型调试与应用开发。

使得医疗、教育、制造等长尾场景的开发者能以低成本部署轻量级、高性能AI，带来革命性的变化，也解决了部分场景的网络延迟与数据隐私问题——避免敏感数据上传云端，同时满足低成本与合规性需求。

这也与行业发展趋势、政策导向相吻合，与2025年政府工作报告提出的“激发数字经济创新活力”目标高度契合。报告指出，持续推进“人工智能+”行动，将数字技术与制造优势、市场优势更好结合起来，支持大模型广泛应用，大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。

一言以蔽之，推动AI大模型从实验室走向产线、消费终端等实体场景，加码端侧AI应用落地，让AI战力接入前线已成大势所趋，而此次Light-R1-7B-DS作为最强7B推理模型，无需量化即可端侧部署，就是AI领域头部玩家交出的时代答卷之一。

滴水藏海，天地纳音，轻量级浪潮甚至有望引发连锁反应：

商业模式创新维度，企业可将节省的90%云服务费用投入细分场景优化，形成“低成本——高利润——再研发”正循环；而学界也可以通过360开放的模型、数据、代码，深度解析其训练轨迹推动可解释性研究，让更多“Light-R1 式”项目得以涌现，形成技术迭代的“飞轮效应”。

正如北京大学新结构经济学研究院院长、教授林毅夫曾预言，中国在新兴产业领域具有显著优势。第四次工业革命中的人工智能、大数据和生命科技等方面，中国与发达国家共同起步：“发挥超大规模市场、产业配套、制度和人才优势，中国有望在2049年建成社会主义现代化强国。”

如今，种种AI普惠举措，正与战略目标形成深度共振：涓涓细流的坚持终将汇集成海，在时代的云图里书写智能新篇。

AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」，覆盖超1000位AIGC圈，百度大模型业务负责人，京东大模型业务负责人，腾讯大模型业务人，阿里云大模型技术负责人，科大讯飞大模型公关，商汤大模型业务，阅文大模型公关，360大模型公关负责人都在群里啦，欢迎大模型业务负责人加入。请加微信fqq2000nian，注明真实身份。