掘金 人工智能 14小时前
DeepSeek 国产大模型新标杆
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文深入探讨了DeepSeek R1这款推理模型,分析了其核心技术、与其他模型的对比、以及在实际应用中的优势与局限。文章详细解读了DeepSeek R1的训练方法、使用技巧,并提供了对推理模型未来发展的展望,帮助读者更好地理解和应用这一前沿技术。

🧠 推理模型的核心在于多步逻辑推导,DeepSeek R1通过显性化思维过程、处理复杂问题和动态计算分配来提升性能,区别于通用大模型。

💡 DeepSeek R1采用COT(思维链)技术,通过引导模型展示推理过程来提高输出质量,并结合强化学习等方法进行训练,使其具备强大的推理能力。

🚀 DeepSeek R1在数学、编程等领域表现出色,其训练成本远低于其他模型,且具备开源优势,但在上下文理解长度和响应速度上存在一定局限。

🔑 DeepSeek R1的训练流程包括生成思维链数据、多轮强化学习等步骤,通过优化奖励机制和模型结构,使其在推理能力和人类价值对齐方面达到平衡。

DeepSeek R1作为一款极具魅力的推理模型,它所呈现出的拟人化的思考过程,让我们都感受到了推理模型的魅力所在,在发布之后,大家发现,它的性能可以匹敌Open Ai的ChatGPT,同时和一些其他的主流大语言模型都不相上下

本期主要内容是从DeepSeek-R1的论文中提炼的核心内容,什么是推理模型,为什么会有推理模型,与其他模型的对比,他的推理能力从何而来,如何用好推理模型来充分挖掘推理模型背后的更多潜能

主要内容

一、什么是推理模型?

推理模型特指擅长处理需要多步逻辑推导任务的LLM,其核心特征体现在:

典型案例对比:

二、思维链 COT

我们在使用Deepseek时,打开深度思考模式,能够直观的感受到,向模型提出问题时,模型就会先生成推理的过程,再给到我们最终的答案,这个推理过程,在提示词的技巧中叫做COT

COT的方法来自于这篇论文,这篇论文的核心思想是,模型需要更多的token来进行思考换句话说,就是当遇到相对复杂的问题时,可以告诉模型如何思考的方式,让模型先进行推理,再生成答案,从而提升模型整体的输出质量

三、有了思维链为什么还需要推理模型

那既然 可以通过思维链的这种提示词的方法,来提升模型处理复杂问题的能力,那为什么还需要推理模型呢?

所以可以推演出,我们需要一个推理模型,来降低大众的使用门槛,来提升模型解决复杂问题的能力这块大家都理解哈,比如说有了推理模型,不需要我们自己思考告诉AI这个问题需要从1 2 3 4 5 这5个方面来解决,推理模型会推理解决问题的方式,思考的更全面

在全球的研究员都在努力解题时,有两家中国公司,交出了一份满意的答卷,分别是deepseek深度求索 ,月之暗面kimi

DeepSeek - 深度求索
Moonshot - 月之暗面

接下来我们进入今天主要内容deepseek

四、DeepSeek

⭐️ 深度求索,全称杭州深度求索人工智能基础技术研究有限公司,是中国的一家人工智能与大型语言模型公司,成立于2023年7月17日。该公司的总部位于杭州市,它的母公司是幻方量化,一个规模超过百亿的私募量化基金

⭐️ 2025年1月10日,DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到某日期,DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首,并导致英伟达股价产生大幅波动。deepseek5个重要标签 AI 国产 免费 开源 强大,接下来我们看看它强大在哪里

五、DeepSeek基本使用

⭐️ 三种途径:

一般来说,当服务状态为红色时,会较频繁的出现:"服务器繁忙,请稍后再试"的提示。

⭐️ 官方提示词库:

官方提供了13个DeepSeek 提示词样例,可以作为参考:api-docs.deepseek.com/zh-cn/promp…

⭐️ 联网搜索:

目前DeepSeek的预训练数据更新到2025年1月。

联网搜索使DeepSeek不仅能依赖它自己的知识库,还能根据互联网实时搜索相关内容来回答问题。

六、DeepSeek为什么火🔥  

⭐️ 成本低效果好 ⭐️ 技术创新 ⭐️ 开源策略

用简单的话来说它就是用更低的成本,做到了其他大语言模型相同,甚至更好的效果,技术上做了创新,以及使用了开源策略

七、DeepSeek与其他模型对比

那首先我们就来看一下,DeepSeek和一众大语言模型Meta,chatGPT-4,Claude 相比,它到底做到了什么样的能力

数学和编程能力

这张图展示的是6个大语言模型在各个方面上的对比 ,这六个模型分别是DeepSeek发布的V3版本以及2.5版本,同时还有阿里巴巴的千问模型,Meta的Llama 3.1-405B,还有Openai的GPT-4o以及Claude 3.5,那我们就来看一下,这六个模型在各个方面上的表现

那首先我们可以看出来,DeepSeek也就是最左边这个蓝色的柱子,在各种任务上的表现,其实都是非常优秀的,那特别是在中间那三个,在这三个上面,DeepSeek的表现都是第一名,这个MATH 500是500道数学题目,评估的是模型在数学推理上的表现,那这个AIME2024也是一样的,它是一个美国的数学竞赛,评估的也是数学推理的表现,而右边的这个评估的是模型在编程上的能力,所以说我们可以发现,DeepSeek在数学计算以及在编程上它的能力,都是要比其他的模型来的更高的,而在左边的两项测试多任务理解以及复杂问题上的表现,表现的也比较不错,它的得分仅仅比Claude低,是除Claude外得分第二高的

所以通过这个图片我们可以看出来,DeepSeek和其他的大语言模型比较,在不同的方面都取得了不错的成绩,但光是成绩不错这一点,其实是不足以让大家如此惊讶的,其实是 它的训练时间非常的短 并且它的训练成本非常低

训练时间

整个训练DeepSeek V3的过程用了2,048块GPU 训练了两个月,如果换算成GPU小时 就等于278万个GPU小时

我们做一个对比 训练DeepSeek花了278万个GPU小时,而训练Meta的LLAMA 3.1模型,总共花了3,080万个GPU小时,所花的训练成本整整上了一个数量

GPU

并且,训练使用的GPU还不是同一种GPU,由于现在中国遭到了美国的芯片管制,所以DeepSeek只能用H800芯片来训练,而Llama3.1用的是更先进的H100芯片训练的,所以说相比于Llama3.1模型,DeepSeek V3用了更加落后的芯片,仅仅训练了1/10的时间,就把这个模型训练出来了,并且表现的还不错,在云计算和高性能计算领域

GPU小时 是一个用于衡量GPU资源使用量的单位,它表示一台GPU运行1小时的计算资源消耗

成本

⭐️  成本如何计算?

按每GPU小时2美元计算 278.8万  * 2 = 557.6 万

开源

那除此之外,DeepSeek还是一个开源的模型,所谓开源模型是指它的代码以及训练方式都是公开的,所有人都可以访问和使用而像是GPT-4o以及Claude,这些都是闭源模型,它们的代码以及训练方法,大家都是不清楚的,

而一个模型开源的好处对于使用者来说,就是可以免费的使用这些技术,并且可以根据自己的需求,对这些代码进行进一步的优化,而同时对于DeepSeek来说,由于它的代码都是公开的,所以它的工作原理会更加的透明,大家对它的信任度可能也会更高一些

弱点

⭐️ 速度与效率

第一个是 DeepSeek给答案的时候,它的文字生成速度也会稍微慢一些,它平均每秒钟可以生成87.5个TOKEN,而像GPT-4o以及Claude,平均每秒可以生成100和90个TOKEN但其实,每秒钟生成TOKEN,它的差异在10%,其实我们是不太能够感受得到的,所以呢这个也只能够算是一个小缺点

第二个就是,它的反应速度可能会慢一些,那平均来说它的首次响应时间是1.1秒,而GPT-4o和Claude基本上都在1秒之内,这个首次响应时间,是指你给大语言模型输入了指令,输入了问题之后这个大语言模型需要多久,来回答你的问题, 但是,这零点几秒的差异,其实大家感受也不大

第三个 还有一个缺点就是DeepSeek比较明显的缺点了,它在理解上下文的时候,它总共只能够理解13万个TOKEN,而像GPT-4o以及Claude,都能够理解200万的TOKEN,每个大语言模型,在跟你对话的时候,它都会根据整一个对话的上下文背景,来去理解你这个问题到底是什么意思,而DeepSeek它能够理解,能够记住的上下文长度是有限的,

比方说我在使用的时候,如果我聊的东西稍微长了一点,那我就会很容易看到它给我发说,我们对话超过了最大对话长度,他建议我再重新开一个对话,那就是说,我们聊天聊着聊着他就聊不下去了,那这种情况在ChatGPT上面,并不常见,重开一个对话,你之前跟他所说过的内容,在新的对话里就不再存在了,所以如果你要跟他铺垫什么背景,你就需要重新再说一遍,那DeepSeek能够阅读的上下文短,这个缺点,其实在使用过程中是蛮明显的,它聊着聊着就不跟你聊了,让你去重新开个对话,这种感受其实也不是特别好,所以这个其实能够算DeepSeek,一个比较大的缺点

八、主要三类模型的训练方法

DeepSeek-R1-Zero

这是deepseek的流程图,看最上边 DeepSeek-R1-Zero是基于deepseek V3这个671B的通用模型,进行纯粹的强化学习训练而成,也是这篇论文的亮点之一DPC团队发现通过纯粹的强化学习的方式,就能让模型展现出卓越的推理能力

RL 强化学习是机器学习的一种范式,其核心思想是让一个智能体(Agent)通过与环境的持续交互,在试错过程中学习最优策略,以最大化长期累积奖励(Reward)

两种类型的奖励方式:

格式奖励 (format rewards) 准确性奖励(accuracy rewards)

DeepSeek-R1-Zero 缺陷主要体现在两个方面

第一是输出内容上的语言混乱,类似于工作时会将中文和英文混合起来进行表达

第二就是输出内容的格式不易读,信息之间没有层级关系为了解决R1 Zero的问题 DPSIC团队进一步探索出了deepseek R1模型,这就是我们现在常说的满血版

DeepSeek-R1-流程解读

DeepSeek-R1的训练过程就特别巧妙,可以归纳为四个步骤:

第一步 生成和学习高质量的思维链数据,先使用dipstick RE Zero,来生成他们所谓的轮启动数据,也就是带有思维链推理的数据内容,来对deepseek V3这个通用模型进行微调,让V3去学习这些推理数据

第二步 进行第一轮强化学习,学习后的V3模型再进行强化学习,在这次强化学习的过程中,值得注意的是,与DeepSeek-R1-Zero不太一样,除了准确性奖励和格式奖励外,还增加了语言一致性奖励

第三步,再生成和学习推理数据和知识型数据

第四步再进行一轮强化学习,基于学习后的V3模型,再进行最后一轮的强化学习,在这个阶段的强化学习过程中

核心的目标

第一 进一步增强模型的推理能力

第二 让模型与人类的价值偏好对齐,从而提高模型的可用性和无害性

以上4步就是deepseek 非常优美且巧妙的训练过程

DeepSeek-R1技术改进

DeepSeek-R1-Zero和DeepSeek-R1的区别,可以类比欧阳锋和郭靖

九、通用模型和推理大模型之间的差异

接下来我们整体看一下,通用大模型和推理大模型之间的差异

十、三条使用心得

第一、提供充分的任务背景信息

虽然推理模型的出现,已经大大降低了模型的使用门槛,不需要通过冗长的提示词技巧,来增强模型的输出表现,只需要通过大白话,来清晰的表达需求就行,但即便是大白话,如果没有充分的任务背景,让模型自己去猜,输出的效果也不尽如人意

💡  总结一下,在表达任务背景信息时,可以考虑以下几个维度

1、目标和意图: 你想解决什么问题,达到什么目标,需要输出的形式是什么?

2、受众与场景: 目标对象有什么特征,应用场景是什么?

3、具体的信息和限制条件: 提供已知的信息内容和限制条件,比如预算条件

第二、定义目标而不是过程

💡  如果不是那种需要严格执行的任务,那就不要去限制它,不用教怎么做,让它自由发挥”

 因为推理模型的深度思考维度往往比我们想的更多

第三、让模型丰富我们的思考维度

我们每个人在思考问题时,往往会被固有的经验或者局限的知识框架所限制,导致容易忽略一些潜在的关键因素甚至,推理过程比最终结果更受启发

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek R1 推理模型 思维链 大模型 AI
相关文章