AI大模型工场 03月20日 13:14
小参数出奇迹!360开源最强14B推理模型,端侧部署春天来了?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

360智脑开源了Light-R1系列模型,包括7B、14B和32B三个版本,其中Light-R1-7B-DS无需量化即可端侧部署,Light-R1-14B-DS在数学成绩上超越了绝大多数32B级模型和DeepSeek-R1-Distill-Llama-70B。这一举措旨在降低AI的使用门槛,特别是对于中小企业。360通过技术突破,实现了低成本复现DeepSeek-R1,并在领域专精和泛化能力上取得双重突破,使得AI技术能够更广泛地应用于医疗、教育、制造等领域,推动“人工智能+”行动。

🚀 **技术突破:** 360智脑开源的Light-R1系列模型在推理模型轻量化技术上取得了显著突破,性能超越更高参数模型,并在AIME24等硬核数学竞赛中表现出色,成功低成本复现DeepSeek-R1。

🎯 **领域专精与泛化能力:** Light-R1系列模型在领域专精和泛化能力上实现了双重突破。虽然仅使用数学数据训练,但在生物学、化学和物理学等领域博士级科学问题的GPQADiamond评测中表现出色,验证了“深度领域优化提升泛化能力”的可能性。

💰 **成本降低与普惠AI:** 360进一步降低了DeepSeek-R1的复现成本,使得中小企业无需依赖大量算力即可获得顶级推理能力,降低了AI部署的硬件门槛和能源消耗,为AI技术的普及铺平了道路,促进AI在各行业的应用。

原创 参商 2025-03-17 12:41 北京

卷王诞生



作者参商

编辑|星奈

媒体|AI大模型工场



人工智能教父深度学习三巨头”Geoffrey Hinton曾擘画端侧大模型的终极蓝图:会有一个阶段,一旦某个AI系统训练完毕,我们会将其运行在非常低功耗的系统上,所以,如果你想让你的烤面包机能和你对话,你需要一个只花费几美元的芯片,而且它能运行像ChatGPT这样的程序。


虽然这种“极致轻量化部署”目前还不能实现,但如今,行业进化的趋势却将这一预言逐步应验,即致力于为大模型“降本增效”,以较小的模型实现更低的部署成本、更快的响应速度以及更广泛的应用场景。其中,最引起轰动的莫过于DeepSeek。


DeepSeek通过创新的训练策略显著降低了AI模型的训练和推理成本,其V3模型仅用约2000张H800 GPU训练,总成本不超过600万美元,使得AI开发、使用门槛大幅降低。然而,即使是DeepSeek把AI成本“砍一刀”后,对于中小企业应用部署而言仍有一定门槛——部署满血版DeepSeek动辄需要数万元硬件投入,如果“退而求其次”部署低参数版本,性能也随之直线滑坡。


如今,难题迎刃而解。如果说DeepSeek把AI成本“砍了一刀”,那么360此次出手,可以说让DeepSeek应用成本进一步“击穿地心”:


前两天,360智脑开源最强14B数学推理模型Light-R1-14B-DS及Light-R1-32B、Light-R1-7B-DS系列,并把SFT和RL的数据、代码、技术报告一起开放。其中,Light-R1-7B-DS作为最强7B推理模型,无需量化即可端侧部署;Light-R1-14B-DS数学成绩超越绝大多数 32B 级模型以及DeepSeek-R1-Distill-Llama-70B,将轻量高效能优势发挥到极致……



360是如何做到的?此次360高调出手“砍一刀”,又将引发哪些蝴蝶效应?



Light-R1系列何以成「最强」:

多项技术突破,低成本复现DeepSeek-R1



360智脑团队近期开源的Light-R1系列模型,标志着推理模型轻量化技术的几大突破。首先,性能碾压更高参数模型,经得起AIME24这种“难度天花板”级的硬核数学竞赛检验,在低成本复现 DeepSeek-R1 方面迈出了重要一步:


此前,行业尽管已经有许多开源玩家尝试在 72B 或更低的模型上复现 DeepSeek-R1,但在艰难的数学竞赛AIME24 上没有一个能取得与DeepSeek-R1-Distill-Qwen-32B 的得分72.6 类似的表现,值得一提的是,360的工作在 QWQ-32B发布之前就已开源了。


最终,Light-R1-14B-DS数学成绩超越绝大多数 32B 级模型,在数学竞赛AIME24、AIME25中分别取得74.0、60.2的高分,双双超越了 DeepSeek-R1-Distill-Llama-70B同期分数(70分、54.1分)。


其次,是领域专精与泛化能力的双重突破,“既要又要”照进现实。经GPQADiamond 评测一役,铁板钉钉的结果显示,其具有“举一反三”的能力:


虽然Light-R1系列仅使用数学数据训练,但模型在其它能力上仍然表现出强泛化性。在包含生物学、化学和物理学领域博士级科学问题的GPQADiamond 评测集测试中,7B 得分49.4、 14B 得分61.7,分别超过了 DeepSeek-R1-Distill-Qwen-7B的49.1、DeepSeek-R1-Distill-Qwen-14B的59.1,表明即使只训练单项也不会对模型造成灾难性遗忘。



这验证了 “深度领域优化提升泛化能力” 的可能性:通过高难度数学问题的强化学习,模型形成了结构化推理的底层能力,有望迁移至科学计算、金融建模等需严格逻辑的场景。


值得一提的是,此次360低成本复现 DeepSeek-R1,是经得起检验的真·复现,带着“不怕验、随便验”的硬核底气:


此前一些玩家在拿 DeepSeek-R1 作为实验对照组时,始终无法复现其在报告中的分数,普遍评测分偏低,然后就偷偷蛐蛐别人测的不准,自己的得分就是比别人高,被网友调侃为“人不行怪路不平”。



360基于deepscaler-release中的DeepScaleR的评估代码,能够完全复现 DeepSeek-R1 QWQ-32B 公布的评测结果(得分相差在1分左右),同时,评测脚本也已经在 github 上开源,可以去复现,就是这么刚!


那么,360具体是如何实现的?采取了哪些技术路径?



解码「最强」背后的技术路径:

多阶段课程vs强化学习诞生卷王!



我们先来看从零复现了满血版 DeepSeek-R1-32B:在Light-R1-32B 的训练上,360采用了 SFT 和 DPO 的课程学习方法。


其中,SFT(Supervised Fine-Tuning)即监督微调是基于标注数据的精细调优方法,通过高质量标注样本(如专家解题步骤)对预训练模型进行领域适配,大体分为两阶段:先使用基础数学数据(筛选自AIME old等各种开源数据集),构建初步推理能力;阶段2则聚焦高难度数据,针对性强化复杂问题解决能力。


通俗来说就是由浅入深,“先学新概念1再学新概念2”。


同时,SFT具有领域快速适配优势:仅需少量标注数据即可将通用模型转化为数学专精模型,同时,稳定性高,标注数据的确定性避免了强化学习的探索风险,适合冷启动阶段,成本可控。



而DPO (Direct Preference Optimization)则是一种通过人类偏好数据直接优化模型输出的方法,其优势主要体现在简化流程、提升效率、降低资源消耗等方面。


接着,Light-R1-14B-DS 上,360将DPO替换为 GRPO,上演“小模型玩转强化学习”:GRPO 是 DeepSeek 团队提出的强化学习方法,过“群体智慧”替代单一价值模型评估策略,核心优势在于提升训练效率、增强稳定性提升复杂任务推理能力,数学推理、代码生成等需深度逻辑的任务。


这让行业看到,强化学习(RL)永不过时——通过“试错-反馈”机制模拟人类学习过程,通过试错和延迟奖励机制,自主习得最优决策策略以最大化长期累积奖励,是解决复杂序列决策问题的核心技术。目前开源项目中,能够完全成功复现强化学习效果的主要是 DeepScaleR-1.5B-Preview,但是这只是一个 1.5B大小的模型,在更大的模型上,目前很少有。


而360偏偏迎难而上,以Light-R1-14B-DS上进行了大规模强化学习训练,训练数据来自OpenR1-Math-220k等公开数学数据集。功夫不负有心人,在 RL 训练过程中,终于观察到了预期的现象:响应长度与验证分数同步提升。这意味着其通过学习不断“打怪升级”,最终顺利完成从“初学者”到“深度推理学霸”的能力跃迁。


这是行业首次成功在 14B 级别推理模型上应用RL并取得明显效果,在进一步提升推理准确率、使其长板更长的同时,也保持其他技能不掉点。


技术的硬核突破扇动“蝴蝶翅膀”,在应用端,正掀起变革风暴。



DeepSeek开好头,360掀起冲击波:

AI普惠未来可期



《孙子兵法》中,讲过“以正合,以奇胜”:正者,兵之常道;奇者,兵之变道,在战争中,既要遵循常规,又要敢于出奇制胜。


AI落地战也是一样,一味卷参数并不是落地的最优解。此前,DeepSeek在成本下降方面带来的冲击波就引起广泛讨论:创新不一定需要依赖最先进的硬件,而是可以通过巧妙的工程设计和高效的训练方法来实现。正如经济日报指出,这种技术突破降低了AI大模型的硬件门槛和能源消耗,为AI技术的普及铺平了道路。较小的模型意味着更低的部署成本、更快的响应速度以及更广泛的应用场景。


诚如所言,如今,360进一步DeepSeek-R1的复现成本降低,本质上是以算法创新带来算力平权:当14B模型性能超越70B级商业产品,意味着中小企业无需依赖天量算力即可获得顶级推理能力,无需购置专业GPU服务器,仅用消费级设备即可完成模型调试与应用开发。


使得医疗、教育、制造等长尾场景的开发者能以低成本部署轻量级、高性能AI,带来革命性的变化,也解决了部分场景的网络延迟与数据隐私问题——避免敏感数据上传云端,同时满足低成本与合规性需求。


这也与行业发展趋势、政策导向相吻合,与2025年政府工作报告提出的“激发数字经济创新活力”目标高度契合。报告指出,持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用,大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。


一言以蔽之,推动AI大模型从实验室走向产线、消费终端等实体场景,加码端侧AI应用落地,让AI战力接入前线已成大势所趋,而此次Light-R1-7B-DS作为最强7B推理模型,无需量化即可端侧部署,就是AI领域头部玩家交出的时代答卷之一。


滴水藏海,天地纳音,轻量级浪潮甚至有望引发连锁反应:


商业模式创新维度,企业可将节省的90%云服务费用投入细分场景优化,形成“低成本——高利润——再研发”正循环;而学界也可以通过360开放的模型、数据、代码,深度解析其训练轨迹推动可解释性研究,让更多“Light-R1 式”项目得以涌现,形成技术迭代的“飞轮效应”。


正如北京大学新结构经济学研究院院长、教授林毅夫曾预言,中国在新兴产业领域具有显著优势。第四次工业革命中的人工智能、大数据和生命科技等方面,中国与发达国家共同起步:“发挥超大规模市场、产业配套、制度和人才优势,中国有望在2049年建成社会主义现代化强国。”


如今,种种AI普惠举措,正与战略目标形成深度共振:涓涓细流的坚持终将汇集成海,在时代的云图里书写智能新篇。


AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。




数据支持天眼查,大模型独家合作账号


— END —


监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI  Marketing Field


  


大模型应用创业者,你怎么看


■ 百度文心一言 阿里通义千问 ▍通用大模型案例

■ 科大讯飞星火 京东 ▍产业大模型案例

■ 商汤日日新,腾讯,昆仑万维 ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型 ▍更多行业大模型案例



上次介绍AI玩梗新高度:一秒把CBD变成毛绒乐园,打工人狂喜





本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

360智脑 AI开源 轻量化模型 AI普惠 DeepSeek-R1
相关文章