硅星人Pro 02月12日
2月15日,探讨DeepSeek开源模型引发的AI最新趋势!蒸馏经验/开源生态/工程能力提升|嘉程创业流水席第249期
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek开源模型引发AI最新趋势,融合多项关键技术,性能卓越,用户众多。国内外巨头与其合作,训练技术有突破进展,对AI行业格局产生深远影响。

DeepSeek开源模型融合FP8、MLA和MoE架构,提升性能效率。

该模型发布多个版本,适用于多种任务,具备端侧运行潜力。

国内外巨头公司与其深度合作,在多领域实现模型接入应用。

其训练技术有多项突破,如GRPO强化学习算法等。

关注创新的 2025-02-11 09:47 北京

本周六上午10:00,与英伟达董鑫、Agent2.AI秦楚辞、像素绽放/ AiPPT.cn江天宇、微软金瀛探讨DeepSeek开源模型引发的AI最新趋势!

本周六上午10:00,与英伟达董鑫、Agent2.AI秦楚辞、像素绽放/ AiPPT.cn江天宇、微软金瀛探讨DeepSeek开源模型引发的AI最新趋势!

扫描上方二维码即可报名

蛇年春节,来自中国的开源基座大模型公司DeepSeek火遍全球。其实最早在去年12月下旬, DeepSeek-V3版本开源模型发布,其创新性地融合了三项关键技术——FP8、MLA(多头潜在注意力)和MoE(混合专家)架构,大幅提升了性能和效率。华尔街随即将目光聚焦于DeepSeek,因为其后续发布的模型一次比一次惊艳。2025年1月20日,其发布DeepSeek-R1,专门适用于数学、编码和逻辑等任务,性能对标OpenAI o1。1月27日,DeepSeek又发布了Janus Pro 7B和1.5B模型, 值得一提的是,7B和1.5B这两个参数量,令DeepSeek的模型具备端侧消费级硬件,比如AIPC运行模型的潜力。

从数据来看,DeepSeek爆发力耀眼。2025年2月初,其日活已突破4,000万,是ChatGPT的约70%,这一增长速度超过了许多同类产品。在没有任何广告投放的情况下,DeepSeek仅用7天就完成了1亿用户的增长。

DeepSeek不仅引领了开源模型社区的火爆,还开辟了高性价比训练模型的全新路径,并被业界迅速采用,比如加州大学伯克利和香港科技大学的一些小规模实验就获得了有效的证实,说明更小规模、更容易采用的模型,也能受益于DeepSeek的创新。这势必会提升小型研究实验室、创业公司和小机构的AI参与热情。此外,开源社区正围绕DeepSeek-R1迅速形成协作环境,近期Huggingface就计划上线一系列基于R1模型的版本,工具和教程,更多的公司正加入进来,加速创新和应用的步伐。

由于模型性能卓越,用户众多,国内外已有众多巨头公司与DeepSeek进行深度合作。在海外,英伟达宣布DeepSeek-R1模型可作为NVIDIA NIM微服务预览版使用,称该模型为推理、数学和编码等任务提供了“最先进的推理能力”,“高推理效率”以及“领先的准确性”;AMD则将DeepSeek的新模型集成到自己的GPU中,并针对推理进行了优化。国内,华为云宣布与硅基流动联合首发并上线基于华为云昇腾云服务的 DeepSeek R1/V3推理服务;腾讯云宣布在高性能应用服务HAI上支持一键部署 Deepseek-R1模型,还将其与腾讯云的Cloud Studio、对象存储等服务无缝集成。百度云、阿里云也接入相关部署。在汽车行业,东风汽车于2月7日宣布,已完成DeepSeek全系列大语言模型的接入工作,旗下猛士、奕派、风神、纳米等自主品牌车型将于近期陆续搭载应用;吉利汽车在2月 6日宣布,其自主研发的星睿大模型已成功与DeepSeek-R1完成技术融合。OPPO手机近日宣布,本月即将发布的OPPO Find N5将正式接入DeepSeek-R1人工智能推理模型。

在训练技术方面,DeepSeek也取得了一系列突破性的进展。其诞生出的训练模式广泛且有效,多个其他模型沿用其训练方式实现了模型推理进步和性能提升,同时在小规模模型上的验证依然有效。

其中,GRPO(Group Relative Policy Optimization)强化学习算法是 DeepSeek的重要创新之一。它作为Proximal Policy Optimization(PPO)的变体,取消了对critic模型的依赖,而是通过“组内评分”来估计基线,从而大幅降低了训练时的内存消耗和计算资源。在数学指令调优阶段,GRPO通过这种方式显著提升了模型在各类数学基准(如GSM8K、MATH以及其他外域数学任务)的表现。

此外,DeepSeek还首创了FP8 Mixed Precision Training Framework,首次在极大规模模型上引入并验证了FP8混合精度训练框架。通过支持FP8运算和存储,实现了训练加速和减少内存占用。在训练过程中,DualPipe算法实现了流水线并行,减少了流水线空泡,实现了计算与通信重叠;开发的专门跨节点All-to-All通信内核,则充分利用了InfiniBand (IB)和NVLink的带宽,确保各节点之间的数据交换高效且低延迟。

DeepSeek的出现,对AI行业格局产生了深远的影响:

2月15日,本周六上午10:00,热爱创新的嘉程资本携手硅星人开启嘉程创业流水席第249席!我们邀请了英伟达研究院研究科学家董鑫、Agent2.AI创始人秦楚辞、像素绽放 / AiPPT.cn CFO江天宇、Microsoft Senior Research Scientist金瀛一起深度探讨DeepSeek开源模型引发的AI最新趋势!欢迎各位关注DeepSeek领域上下游的研发人员、创业者、投资人和行业专家一起参加!


再次邀请上车!


主题:探讨DeepSeek开源模型引发的AI最新趋势!


时间:2025年2月15日10:00-12:00

形式:腾讯会议


名额:为保证活动私密性和讨论质量,限100位!

本场活动免费参加!



嘉程创业流水席是嘉程资本为创业者打造的高端、私密、平等的社交平台。大家迅速交流最新行业趋势,认识行业合作伙伴、深度学习行业真知灼见。自2018年下半年推出嘉程创业流水席的服务以来,我们通过线上线下结合的方式,举办了248场创业者流水席,迄今已服务数万名创新者,形成全球华人科技创新者的活跃生态。



点个爱心,再走


点击下方“阅读原文”,即可报名参会!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek AI趋势 训练技术 模型应用
相关文章