DeepSeek 国产大模型新标杆

DeepSeek R1作为一款极具魅力的推理模型，它所呈现出的拟人化的思考过程，让我们都感受到了推理模型的魅力所在，在发布之后，大家发现，它的性能可以匹敌Open Ai的ChatGPT，同时和一些其他的主流大语言模型都不相上下

本期主要内容是从DeepSeek-R1的论文中提炼的核心内容，什么是推理模型，为什么会有推理模型，与其他模型的对比，他的推理能力从何而来，如何用好推理模型来充分挖掘推理模型背后的更多潜能

主要内容

一、什么是推理模型？

推理模型特指擅长处理需要多步逻辑推导任务的LLM，其核心特征体现在：

思维过程显性化：在输出答案时展示中间推理步骤（如数学证明过程）复杂问题处理能力：在编程解题（LeetCode难题）、数学证明（IMO级别题目）等任务中表现突出动态计算分配：根据问题复杂度自动调整"思考"深度

典型案例对比：

简单问题："法国首都是哪里？" → 直接回答复杂问题："火车时速60mph行驶3小时后距离？" → 展示速度×时间的计算过程

二、思维链 COT

我们在使用Deepseek时,打开深度思考模式，能够直观的感受到，向模型提出问题时，模型就会先生成推理的过程,再给到我们最终的答案，这个推理过程，在提示词的技巧中叫做COT。

COT的方法来自于这篇论文，这篇论文的核心思想是，模型需要更多的token来进行思考换句话说，就是当遇到相对复杂的问题时，可以告诉模型如何思考的方式，让模型先进行推理，再生成答案，从而提升模型整体的输出质量

三、有了思维链为什么还需要推理模型

那既然可以通过思维链的这种提示词的方法，来提升模型处理复杂问题的能力，那为什么还需要推理模型呢？

门槛高难掌握:

个体知识局限性

所以可以推演出，我们需要一个推理模型，来降低大众的使用门槛，来提升模型解决复杂问题的能力这块大家都理解哈，比如说有了推理模型，不需要我们自己思考告诉AI这个问题需要从1 2 3 4 5 这5个方面来解决，推理模型会推理解决问题的方式，思考的更全面

在全球的研究员都在努力解题时,有两家中国公司,交出了一份满意的答卷,分别是deepseek深度求索 ,月之暗面kimi

DeepSeek - 深度求索

Moonshot - 月之暗面

接下来我们进入今天主要内容deepseek

四、DeepSeek

⭐️ 深度求索，全称杭州深度求索人工智能基础技术研究有限公司，是中国的一家人工智能与大型语言模型公司，成立于2023年7月17日。该公司的总部位于杭州市，它的母公司是幻方量化,一个规模超过百亿的私募量化基金

⭐️ 2025年1月10日，DeepSeek为iOS和安卓系统发布其首款免费的基于DeepSeek-R1模型聊天机器人程序。截止到某日期，DeepSeek-R1超过ChatGPT成为美区iOS应用商店免费应用程序榜首，并导致英伟达股价产生大幅波动。deepseek5个重要标签 AI 国产免费开源强大，接下来我们看看它强大在哪里

五、DeepSeek基本使用

⭐️ 三种途径：

网页版：

chat.deepseek.com/

ai.com

移动端：

DeepSeek

服务状态监控：

status.deepseek.com/

一般来说，当服务状态为红色时，会较频繁的出现："服务器繁忙，请稍后再试"的提示。

⭐️ 官方提示词库：

官方提供了13个DeepSeek 提示词样例，可以作为参考：api-docs.deepseek.com/zh-cn/promp…

⭐️ 联网搜索：

目前DeepSeek的预训练数据更新到2025年1月。

联网搜索使DeepSeek不仅能依赖它自己的知识库，还能根据互联网实时搜索相关内容来回答问题。

六、DeepSeek为什么火🔥

⭐️ 成本低效果好 ⭐️ 技术创新 ⭐️ 开源策略

用简单的话来说它就是用更低的成本，做到了其他大语言模型相同，甚至更好的效果，技术上做了创新，以及使用了开源策略

七、DeepSeek与其他模型对比

那首先我们就来看一下，DeepSeek和一众大语言模型Meta,chatGPT-4,Claude 相比，它到底做到了什么样的能力

数学和编程能力

这张图展示的是6个大语言模型在各个方面上的对比，这六个模型分别是DeepSeek发布的V3版本以及2.5版本，同时还有阿里巴巴的千问模型，Meta的Llama 3.1-405B，还有Openai的GPT-4o以及Claude 3.5,那我们就来看一下，这六个模型在各个方面上的表现

那首先我们可以看出来，DeepSeek也就是最左边这个蓝色的柱子，在各种任务上的表现，其实都是非常优秀的，那特别是在中间那三个，在这三个上面，DeepSeek的表现都是第一名，这个MATH 500是500道数学题目，评估的是模型在数学推理上的表现，那这个AIME2024也是一样的，它是一个美国的数学竞赛，评估的也是数学推理的表现，而右边的这个评估的是模型在编程上的能力，所以说我们可以发现，DeepSeek在数学计算以及在编程上它的能力，都是要比其他的模型来的更高的，而在左边的两项测试多任务理解以及复杂问题上的表现，表现的也比较不错，它的得分仅仅比Claude低，是除Claude外得分第二高的

所以通过这个图片我们可以看出来，DeepSeek和其他的大语言模型比较，在不同的方面都取得了不错的成绩，但光是成绩不错这一点，其实是不足以让大家如此惊讶的，其实是它的训练时间非常的短并且它的训练成本非常低

训练时间

整个训练DeepSeek V3的过程用了2,048块GPU 训练了两个月，如果换算成GPU小时就等于278万个GPU小时

我们做一个对比训练DeepSeek花了278万个GPU小时，而训练Meta的LLAMA 3.1模型，总共花了3,080万个GPU小时，所花的训练成本整整上了一个数量

GPU

并且，训练使用的GPU还不是同一种GPU，由于现在中国遭到了美国的芯片管制，所以DeepSeek只能用H800芯片来训练，而Llama3.1用的是更先进的H100芯片训练的，所以说相比于Llama3.1模型，DeepSeek V3用了更加落后的芯片，仅仅训练了1/10的时间，就把这个模型训练出来了，并且表现的还不错，在云计算和高性能计算领域

GPU小时是一个用于衡量GPU资源使用量的单位，它表示一台GPU运行1小时的计算资源消耗

成本

⭐️ 成本如何计算？

按每GPU小时2美元计算 278.8万 * 2 = 557.6 万

开源

那除此之外，DeepSeek还是一个开源的模型，所谓开源模型是指它的代码以及训练方式都是公开的，所有人都可以访问和使用而像是GPT-4o以及Claude，这些都是闭源模型，它们的代码以及训练方法，大家都是不清楚的，

而一个模型开源的好处对于使用者来说，就是可以免费的使用这些技术，并且可以根据自己的需求，对这些代码进行进一步的优化，而同时对于DeepSeek来说，由于它的代码都是公开的，所以它的工作原理会更加的透明，大家对它的信任度可能也会更高一些

弱点

⭐️ 速度与效率

第一个是 DeepSeek给答案的时候，它的文字生成速度也会稍微慢一些，它平均每秒钟可以生成87.5个TOKEN，而像GPT-4o以及Claude，平均每秒可以生成100和90个TOKEN但其实,每秒钟生成TOKEN,它的差异在10%,其实我们是不太能够感受得到的,所以呢这个也只能够算是一个小缺点

第二个就是，它的反应速度可能会慢一些，那平均来说它的首次响应时间是1.1秒，而GPT-4o和Claude基本上都在1秒之内，这个首次响应时间，是指你给大语言模型输入了指令，输入了问题之后这个大语言模型需要多久，来回答你的问题，但是，这零点几秒的差异，其实大家感受也不大

第三个还有一个缺点就是DeepSeek比较明显的缺点了，它在理解上下文的时候，它总共只能够理解13万个TOKEN，而像GPT-4o以及Claude，都能够理解200万的TOKEN，每个大语言模型，在跟你对话的时候，它都会根据整一个对话的上下文背景，来去理解你这个问题到底是什么意思，而DeepSeek它能够理解，能够记住的上下文长度是有限的，

比方说我在使用的时候，如果我聊的东西稍微长了一点，那我就会很容易看到它给我发说，我们对话超过了最大对话长度，他建议我再重新开一个对话，那就是说，我们聊天聊着聊着他就聊不下去了，那这种情况在ChatGPT上面，并不常见，重开一个对话，你之前跟他所说过的内容，在新的对话里就不再存在了，所以如果你要跟他铺垫什么背景，你就需要重新再说一遍，那DeepSeek能够阅读的上下文短，这个缺点，其实在使用过程中是蛮明显的，它聊着聊着就不跟你聊了，让你去重新开个对话，这种感受其实也不是特别好，所以这个其实能够算DeepSeek，一个比较大的缺点

八、主要三类模型的训练方法

DeepSeek-R1-Zero

这是deepseek的流程图，看最上边 DeepSeek-R1-Zero是基于deepseek V3这个671B的通用模型,进行纯粹的强化学习训练而成，也是这篇论文的亮点之一DPC团队发现通过纯粹的强化学习的方式,就能让模型展现出卓越的推理能力

RL 强化学习是机器学习的一种范式，其核心思想是让一个智能体（Agent）通过与环境的持续交互，在试错过程中学习最优策略，以最大化长期累积奖励（Reward）

两种类型的奖励方式：

格式奖励（format rewards）准确性奖励（accuracy rewards）

DeepSeek-R1-Zero 缺陷主要体现在两个方面

第一是输出内容上的语言混乱，类似于工作时会将中文和英文混合起来进行表达

第二就是输出内容的格式不易读，信息之间没有层级关系为了解决R1 Zero的问题 DPSIC团队进一步探索出了deepseek R1模型，这就是我们现在常说的满血版

DeepSeek-R1-流程解读

DeepSeek-R1的训练过程就特别巧妙，可以归纳为四个步骤:

第一步生成和学习高质量的思维链数据，先使用dipstick RE Zero，来生成他们所谓的轮启动数据，也就是带有思维链推理的数据内容，来对deepseek V3这个通用模型进行微调,让V3去学习这些推理数据

第二步进行第一轮强化学习，学习后的V3模型再进行强化学习，在这次强化学习的过程中，值得注意的是，与DeepSeek-R1-Zero不太一样，除了准确性奖励和格式奖励外，还增加了语言一致性奖励

第三步，再生成和学习推理数据和知识型数据

第四步再进行一轮强化学习，基于学习后的V3模型，再进行最后一轮的强化学习，在这个阶段的强化学习过程中

核心的目标

第一进一步增强模型的推理能力

第二让模型与人类的价值偏好对齐，从而提高模型的可用性和无害性

以上4步就是deepseek 非常优美且巧妙的训练过程

DeepSeek-R1技术改进

DeepSeek-R1-Zero和DeepSeek-R1的区别，可以类比欧阳锋和郭靖

九、通用模型和推理大模型之间的差异

接下来我们整体看一下，通用大模型和推理大模型之间的差异

通用大模型的典型代表，像GPT4 dipstick V3 豆包，他们都擅长知识问答客服对话，创意写作等通用场景，优势在于响应快，能够解决大部分的通用问题，劣势在于对于复杂任务或对于垂直领域任务的输出质量不佳

推理大模型的典型代表，像欧万 deepseekR1 Kimi K1.5,他们擅长数学证明,代码生成和开放型问题的探讨,优势在于推理模型有很强的逻辑推理能力,在处理复杂任务时表现良好,劣势在于无法快速实时响应,并且面对知识型任务更容易产生幻觉

十、三条使用心得

第一、提供充分的任务背景信息

虽然推理模型的出现，已经大大降低了模型的使用门槛，不需要通过冗长的提示词技巧，来增强模型的输出表现，只需要通过大白话，来清晰的表达需求就行，但即便是大白话，如果没有充分的任务背景，让模型自己去猜，输出的效果也不尽如人意

💡 总结一下，在表达任务背景信息时，可以考虑以下几个维度

1、目标和意图： 你想解决什么问题，达到什么目标，需要输出的形式是什么？

2、受众与场景： 目标对象有什么特征，应用场景是什么？

3、具体的信息和限制条件： 提供已知的信息内容和限制条件，比如预算条件

第二、定义目标而不是过程

💡 如果不是那种需要严格执行的任务，那就不要去限制它，不用教怎么做，让它自由发挥”

因为推理模型的深度思考维度往往比我们想的更多

第三、让模型丰富我们的思考维度

我们每个人在思考问题时，往往会被固有的经验或者局限的知识框架所限制，导致容易忽略一些潜在的关键因素甚至，推理过程比最终结果更受启发