DeepSeek R1作为一款极具魅力的推理模型,它所呈现出的拟人化的思考过程,让我们都感受到了推理模型的魅力所在,在发布之后,大家发现,它的性能可以匹敌Open Ai的ChatGPT,同时和一些其他的主流大语言模型都不相上下
本期主要内容是从DeepSeek-R1的论文中提炼的核心内容,什么是推理模型,为什么会有推理模型,与其他模型的对比,他的推理能力从何而来,如何用好推理模型来充分挖掘推理模型背后的更多潜能
主要内容
一、什么是推理模型?
推理模型特指擅长处理需要多步逻辑推导任务的LLM,其核心特征体现在:
- 思维过程显性化:在输出答案时展示中间推理步骤(如数学证明过程)复杂问题处理能力:在编程解题(LeetCode难题)、数学证明(IMO级别题目)等任务中表现突出动态计算分配:根据问题复杂度自动调整"思考"深度
典型案例对比:
- 简单问题:"法国首都是哪里?" → 直接回答复杂问题:"火车时速60mph行驶3小时后距离?" → 展示速度×时间的计算过程
二、思维链 COT
我们在使用Deepseek时,打开深度思考模式,能够直观的感受到,向模型提出问题时,模型就会先生成推理的过程,再给到我们最终的答案,这个推理过程,在提示词的技巧中叫做COT。
COT的方法来自于这篇论文,这篇论文的核心思想是,模型需要更多的token来进行思考换句话说,就是当遇到相对复杂的问题时,可以告诉模型如何思考的方式,让模型先进行推理,再生成答案,从而提升模型整体的输出质量
三、有了思维链为什么还需要推理模型
那既然 可以通过思维链的这种提示词的方法,来提升模型处理复杂问题的能力,那为什么还需要推理模型呢?
- 门槛高难掌握: 写思维链提示词对使用者的能力要求高,他需要具有复杂问题的解题思路,才能写好思维链提示词,但绝大部人都不具备这样的能力个体知识局限性 : 没有人是所有领域的通才,对于不熟悉的领域,无法告诉模型应该如何解决问题
所以可以推演出,我们需要一个推理模型,来降低大众的使用门槛,来提升模型解决复杂问题的能力这块大家都理解哈,比如说有了推理模型,不需要我们自己思考告诉AI这个问题需要从1 2 3 4 5 这5个方面来解决,推理模型会推理解决问题的方式,思考的更全面
在全球的研究员都在努力解题时,有两家中国公司,交出了一份满意的答卷,分别是deepseek深度求索 ,月之暗面kimi
接下来我们进入今天主要内容deepseek
四、DeepSeek
⭐️ 深度求索,全称杭州深度求索人工智能基础技术研究有限公司,是中国的一家人工智能与大型语言模型公司,成立于2023年7月17日。该公司的总部位于杭州市,它的母公司是幻方量化,一个规模超过百亿的私募量化基金
⭐️ 2025年1月10日,DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到某日期,DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首,并导致英伟达股价产生大幅波动。deepseek5个重要标签 AI 国产 免费 开源 强大,接下来我们看看它强大在哪里
五、DeepSeek基本使用
⭐️ 三种途径:
- 网页版: chat.deepseek.com/ ai.com移动端: 可以直接在各大应用商店搜索
DeepSeek
,或者在网页端直接扫码下载服务状态监控: status.deepseek.com/一般来说,当服务状态为红色时,会较频繁的出现:"服务器繁忙,请稍后再试"的提示。
⭐️ 官方提示词库:
官方提供了13个DeepSeek
提示词样例,可以作为参考:api-docs.deepseek.com/zh-cn/promp…
⭐️ 联网搜索:
目前DeepSeek
的预训练数据更新到2025年1月。
联网搜索使DeepSeek
不仅能依赖它自己的知识库,还能根据互联网实时搜索相关内容来回答问题。
六、DeepSeek为什么火🔥
⭐️ 成本低效果好 ⭐️ 技术创新 ⭐️ 开源策略
用简单的话来说它就是用更低的成本,做到了其他大语言模型相同,甚至更好的效果,技术上做了创新,以及使用了开源策略
七、DeepSeek与其他模型对比
那首先我们就来看一下,DeepSeek和一众大语言模型Meta,chatGPT-4,Claude 相比,它到底做到了什么样的能力
数学和编程能力
那首先我们可以看出来,DeepSeek也就是最左边这个蓝色的柱子,在各种任务上的表现,其实都是非常优秀的,那特别是在中间那三个,在这三个上面,DeepSeek的表现都是第一名,这个MATH 500是500道数学题目,评估的是模型在数学推理上的表现,那这个AIME2024也是一样的,它是一个美国的数学竞赛,评估的也是数学推理的表现,而右边的这个评估的是模型在编程上的能力,所以说我们可以发现,DeepSeek在数学计算以及在编程上它的能力,都是要比其他的模型来的更高的,而在左边的两项测试多任务理解以及复杂问题上的表现,表现的也比较不错,它的得分仅仅比Claude低,是除Claude外得分第二高的
所以通过这个图片我们可以看出来,DeepSeek和其他的大语言模型比较,在不同的方面都取得了不错的成绩,但光是成绩不错这一点,其实是不足以让大家如此惊讶的,其实是 它的训练时间非常的短 并且它的训练成本非常低
训练时间
我们做一个对比 训练DeepSeek花了278万个GPU小时,而训练Meta的LLAMA 3.1模型,总共花了3,080万个GPU小时,所花的训练成本整整上了一个数量
GPU
并且,训练使用的GPU还不是同一种GPU,由于现在中国遭到了美国的芯片管制,所以DeepSeek只能用H800芯片来训练,而Llama3.1用的是更先进的H100芯片训练的,所以说相比于Llama3.1模型,DeepSeek V3用了更加落后的芯片,仅仅训练了1/10的时间,就把这个模型训练出来了,并且表现的还不错,在云计算和高性能计算领域
GPU小时 是一个用于衡量GPU资源使用量的单位,它表示一台GPU运行1小时的计算资源消耗
成本
⭐️ 成本如何计算?
按每GPU小时2美元计算 278.8万 * 2 = 557.6 万
开源
那除此之外,DeepSeek还是一个开源的模型,所谓开源模型是指它的代码以及训练方式都是公开的,所有人都可以访问和使用而像是GPT-4o以及Claude,这些都是闭源模型,它们的代码以及训练方法,大家都是不清楚的,
而一个模型开源的好处对于使用者来说,就是可以免费的使用这些技术,并且可以根据自己的需求,对这些代码进行进一步的优化,而同时对于DeepSeek来说,由于它的代码都是公开的,所以它的工作原理会更加的透明,大家对它的信任度可能也会更高一些
弱点
⭐️ 速度与效率
第一个是 DeepSeek给答案的时候,它的文字生成速度也会稍微慢一些,它平均每秒钟可以生成87.5个TOKEN,而像GPT-4o以及Claude,平均每秒可以生成100和90个TOKEN但其实,每秒钟生成TOKEN,它的差异在10%,其实我们是不太能够感受得到的,所以呢这个也只能够算是一个小缺点
第二个就是,它的反应速度可能会慢一些,那平均来说它的首次响应时间是1.1秒,而GPT-4o和Claude基本上都在1秒之内,这个首次响应时间,是指你给大语言模型输入了指令,输入了问题之后这个大语言模型需要多久,来回答你的问题, 但是,这零点几秒的差异,其实大家感受也不大
第三个 还有一个缺点就是DeepSeek比较明显的缺点了,它在理解上下文的时候,它总共只能够理解13万个TOKEN,而像GPT-4o以及Claude,都能够理解200万的TOKEN,每个大语言模型,在跟你对话的时候,它都会根据整一个对话的上下文背景,来去理解你这个问题到底是什么意思,而DeepSeek它能够理解,能够记住的上下文长度是有限的,
比方说我在使用的时候,如果我聊的东西稍微长了一点,那我就会很容易看到它给我发说,我们对话超过了最大对话长度,他建议我再重新开一个对话,那就是说,我们聊天聊着聊着他就聊不下去了,那这种情况在ChatGPT上面,并不常见,重开一个对话,你之前跟他所说过的内容,在新的对话里就不再存在了,所以如果你要跟他铺垫什么背景,你就需要重新再说一遍,那DeepSeek能够阅读的上下文短,这个缺点,其实在使用过程中是蛮明显的,它聊着聊着就不跟你聊了,让你去重新开个对话,这种感受其实也不是特别好,所以这个其实能够算DeepSeek,一个比较大的缺点
八、主要三类模型的训练方法
DeepSeek-R1-Zero
这是deepseek的流程图,看最上边 DeepSeek-R1-Zero是基于deepseek V3这个671B的通用模型,进行纯粹的强化学习训练而成,也是这篇论文的亮点之一DPC团队发现通过纯粹的强化学习的方式,就能让模型展现出卓越的推理能力
RL 强化学习是机器学习的一种范式,其核心思想是让一个智能体(Agent)通过与环境的持续交互,在试错过程中学习最优策略,以最大化长期累积奖励(Reward)
两种类型的奖励方式:
格式奖励 (format rewards) 准确性奖励(accuracy rewards)
DeepSeek-R1-Zero 缺陷主要体现在两个方面
第一是输出内容上的语言混乱,类似于工作时会将中文和英文混合起来进行表达
第二就是输出内容的格式不易读,信息之间没有层级关系为了解决R1 Zero的问题 DPSIC团队进一步探索出了deepseek R1模型,这就是我们现在常说的满血版
DeepSeek-R1-流程解读
DeepSeek-R1的训练过程就特别巧妙,可以归纳为四个步骤:
第一步 生成和学习高质量的思维链数据,先使用dipstick RE Zero,来生成他们所谓的轮启动数据,也就是带有思维链推理的数据内容,来对deepseek V3这个通用模型进行微调,让V3去学习这些推理数据
第二步 进行第一轮强化学习,学习后的V3模型再进行强化学习,在这次强化学习的过程中,值得注意的是,与DeepSeek-R1-Zero不太一样,除了准确性奖励和格式奖励外,还增加了语言一致性奖励
第三步,再生成和学习推理数据和知识型数据
第四步再进行一轮强化学习,基于学习后的V3模型,再进行最后一轮的强化学习,在这个阶段的强化学习过程中
核心的目标
第一 进一步增强模型的推理能力
第二 让模型与人类的价值偏好对齐,从而提高模型的可用性和无害性
以上4步就是deepseek 非常优美且巧妙的训练过程
DeepSeek-R1技术改进
DeepSeek-R1-Zero和DeepSeek-R1的区别,可以类比欧阳锋和郭靖
九、通用模型和推理大模型之间的差异
接下来我们整体看一下,通用大模型和推理大模型之间的差异
通用大模型的典型代表,像GPT4 dipstick V3 豆包,他们都擅长知识问答客服对话,创意写作等通用场景,优势在于响应快,能够解决大部分的通用问题,劣势在于对于复杂任务或对于垂直领域任务的输出质量不佳
推理大模型的典型代表,像欧万 deepseekR1 Kimi K1.5,他们擅长数学证明,代码生成和开放型问题的探讨,优势在于推理模型有很强的逻辑推理能力,在处理复杂任务时表现良好,劣势在于无法快速实时响应,并且面对知识型任务更容易产生幻觉
十、三条使用心得
第一、提供充分的任务背景信息
虽然推理模型的出现,已经大大降低了模型的使用门槛,不需要通过冗长的提示词技巧,来增强模型的输出表现,只需要通过大白话,来清晰的表达需求就行,但即便是大白话,如果没有充分的任务背景,让模型自己去猜,输出的效果也不尽如人意
💡 总结一下,在表达任务背景信息时,可以考虑以下几个维度
1、目标和意图: 你想解决什么问题,达到什么目标,需要输出的形式是什么?
2、受众与场景: 目标对象有什么特征,应用场景是什么?
3、具体的信息和限制条件: 提供已知的信息内容和限制条件,比如预算条件
第二、定义目标而不是过程
💡 如果不是那种需要严格执行的任务,那就不要去限制它,不用教怎么做,让它自由发挥”
因为推理模型的深度思考维度往往比我们想的更多
第三、让模型丰富我们的思考维度
我们每个人在思考问题时,往往会被固有的经验或者局限的知识框架所限制,导致容易忽略一些潜在的关键因素甚至,推理过程比最终结果更受启发