DeepSeek版o1与OpenAI的o1大PK，到底谁真的炸场了？

夕小瑶科技说 2024年11月21日

DeepSeek版o1与OpenAI的o1大PK，到底谁真的炸场了？

DeepSeek发布了最新的类o1推理模型DeepSeek R1-Lite，标志着国产大模型进入o1时代。该模型思维链长度可达数万字，采用强化学习技术，推理过程包含大量反思和验证。评测结果显示，DeepSeek R1-Lite在数学和编程方面与o1-preview相当，甚至在某些榜单上超越o1。例如，在AMC竞赛中，DeepSeek R1-Lite的表现显著领先。DeepSeek团队表示，R1模型性能与推理时间正相关，推理时间越长，效果越好。目前，R1-Lite预览版已开放测试，正式版及开源计划正在进行中。文章通过实际案例对比DeepSeek R1-Lite和o1在不同问题上的表现，探讨了o1推理模式的优劣势，并对国产大模型的未来发展表达了期待。

🤔DeepSeek R1-Lite是DeepSeek最新发布的类o1推理模型，其思维链长度可达数万字，采用强化学习技术，推理过程包含大量反思和验证环节，标志着国产大模型进入o1时代。

📊在数学和编程方面，DeepSeek R1-Lite与o1-preview表现相当，甚至在一些榜单上超越o1，例如在AMC竞赛中，其表现显著领先于o1。

⏳DeepSeek R1-Lite的性能与推理时间正相关，推理时间越长，效果越好，但目前仍处于预览阶段，后续将推出正式版并开源。

💡DeepSeek R1-Lite在开放性问题上，思考较为深入，但输出的方案不够具体，缺乏可操作性，与o1相比，实用性略逊一筹。

🇨🇳DeepSeek率先推出国内版o1模型，展现了国产大模型快速追赶的势头，为国产大模型发展注入了新的活力。

原创付奶茶 2024-11-21 15:05 北京

夕小瑶科技说原创
作者 | 付奶茶

家人们，DeepSeek 刚推出了他们最新的类o1推理模型——DeepSeek R1-Lite。

这代表着国产大模型开始进入o1时代了。

根据官方的介绍，r1的思维链的长度可以达到数万字，采用强化学习技术，推理过程涵盖大量的反思和验证环节。

先简单看一眼指标表现，再拉出来练练。

整体结论是：数学和编程方面，这款模型与o1-preview相当，甚至一些榜单结果上超越了o1。

比如美国数学竞赛（AMC）中最高难度级别的AIME，DeepSeek R1-Lite领先o1一大截！

推理时间更长了！但是效果更牛逼了！

DeepSeek提到，他们做了更强势的推理时间越长，性能越好。

如下图所示，DeepSeek-R1-Lite-Preview和o1-preview对比，随着思考长度的增加，AIME 上的得分稳步提高。

预览版可以试用了，正式版在路上

DeepSeek团队透露，R1模型目前还在持续打磨中。

后续会推出正式版，并且开源，开放API，还会公布完整的技术细节。我已经等不及了，勇士们快点肝！

目前线上的还是预览版，每天可以50次免费测试～

想试试的小伙伴，链接我贴在这儿了：
https://chat.deepseek.com/

拉出来比武！

既然开测试了（让我白嫖）！那咱们就拿几道题测测它！

首先是大名鼎鼎的草莓问题。

问题：“strawberry”几个r？

先是不用o1，答错了。

再打开o1，答对了。

但是再试一遍，第一次思考了2秒，这次思考了14秒。

错了。。（请仔细看它的思考过程，中间说了好几遍“有两个r”，一遍遍否定自己，有继续得出错误结论）

试试openai的o1，也不对。

再来一个反转字母！

问题：请帮我将这串字符全部的字母反着写：QingguanzhuXixiaoyao！

家人们！我把它弄崩溃了！我看它委屈成这样我都心软软！

它反复怀疑自己，反复怀疑题目，氮素，最后它错的很离谱啊！

不仅字母没有顺利反转，而且还加了字符串外的字母～

而o1 就快速的做错了，错的简简单单，轻轻松松，不费力气hh：

虽然DeepSeek-R1-Lite号称更长的推理时间带来了更好的效果，但是好像结果上差别不大啊，o1甚至没有引入字符串的字母，错的都没有DeepSeek-R1-Lite离谱！这局的胜负难定！

再来一道！

问题：9.9和9.11哪个大？

看到前面推理过程磨磨叽叽犹犹豫豫，奶茶还以为这把又要搞砸了，结果DeepSeek-R1-Lite窝窝囊囊中的做对了！！

而o1还是干净利落的做错了hh～

还有编程问题，必须测一测。

问题：选了一道经典的leetcode问题，求长度最小的子数组。

它思考了整整一分钟，中间打印了好多步骤，最终，水灵灵滴得推理出来错误答案。。。

中间推理错了答案，最后，验证了错误答案。。

openAI o1则简短的给出了正确答案。

数学和编程问题就到此为止吧。

再来一道开放性题目！

问题：我很好奇大语言模型的未来，能不能帮我想个办法未来让大语言模型为我挣钱？

DeepSeek-R1-Lite：

o1:

这样看下来，DeepSeek-R1-Lite在开放性答案上，想很多！

但是它输出的方案并不是很具体，没有什么可以借鉴的明确路线，而o1还能说出来点有用的答案！

结语

前不久讨论特别热烈的一个话题是“Scaling Law有没有撞南墙”，众多大佬下场发表看法。目前业界已经开始动摇了沿着Scaling Law继续走下去的信念，而o1是OpenAI提出来的LLM后时代的一条新路径，获取内部早就调转了车头也未可知。

仅从我们试用的一些case看，不足以代表DeepSeek-R1-Lite它的真实水平，但从中窥见，r1还有非常大的提升空间的。

但是，o1标注大模型从快思考进入慢思考，这条路还有许多可能和想象。DeepSeek这次是率先推出了国内版o1，追赶速度非常快，中国速度是牛的！要知道做事情从0-1的过程是最难的。

对于国产大模型的o1，我依然非常期待。

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek R1-Lite o1推理大语言模型国产大模型强化学习

相关文章

Import AI 370: 213 AI safety challenges; everything becomes a game; Tesla’s big cluster

Exploring the Frontiers of AI: The Emergence of LLM-4 Architectures

Graphs and Language

LangChain, Python, and Heroku

AI News Weekly - Issue #378: Top AI Books to Read in 2024 - Mar 28th 2024

When More is More? When For an LLM is Enough?

? 第十一期即刻AIGC大目录来了，本期名为《千脑智能》。距离上期《真实世界的脉络》两个月，AI 新能力在各个生态位的喷发让人应接不暇。大模型发布速度有增...

Amazon’s New AI Assistant Is an Editor to Prevent Hallucinations

ChuXin: A Fully Open-Sourced Language Model with a Size of 1.6 Billion Parameters

Teaching Large Language Models to Reason with Reinforcement Learning with Alex Havrilla - #680