夕小瑶科技说 2024年11月21日
DeepSeek版o1与OpenAI的o1大PK,到底谁真的炸场了?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek发布了最新的类o1推理模型DeepSeek R1-Lite,标志着国产大模型进入o1时代。该模型思维链长度可达数万字,采用强化学习技术,推理过程包含大量反思和验证。评测结果显示,DeepSeek R1-Lite在数学和编程方面与o1-preview相当,甚至在某些榜单上超越o1。例如,在AMC竞赛中,DeepSeek R1-Lite的表现显著领先。DeepSeek团队表示,R1模型性能与推理时间正相关,推理时间越长,效果越好。目前,R1-Lite预览版已开放测试,正式版及开源计划正在进行中。文章通过实际案例对比DeepSeek R1-Lite和o1在不同问题上的表现,探讨了o1推理模式的优劣势,并对国产大模型的未来发展表达了期待。

🤔DeepSeek R1-Lite是DeepSeek最新发布的类o1推理模型,其思维链长度可达数万字,采用强化学习技术,推理过程包含大量反思和验证环节,标志着国产大模型进入o1时代。

📊在数学和编程方面,DeepSeek R1-Lite与o1-preview表现相当,甚至在一些榜单上超越o1,例如在AMC竞赛中,其表现显著领先于o1。

⏳DeepSeek R1-Lite的性能与推理时间正相关,推理时间越长,效果越好,但目前仍处于预览阶段,后续将推出正式版并开源。

💡DeepSeek R1-Lite在开放性问题上,思考较为深入,但输出的方案不够具体,缺乏可操作性,与o1相比,实用性略逊一筹。

🇨🇳DeepSeek率先推出国内版o1模型,展现了国产大模型快速追赶的势头,为国产大模型发展注入了新的活力。

原创 付奶茶 2024-11-21 15:05 北京

 夕小瑶科技说 原创
 作者 | 付奶茶

家人们,DeepSeek 刚推出了他们最新的类o1推理模型——DeepSeek R1-Lite

这代表着国产大模型开始进入o1时代了。

根据官方的介绍,r1的思维链的长度可以达到数万字,采用强化学习技术,推理过程涵盖大量的反思和验证环节。

先简单看一眼指标表现,再拉出来练练。

整体结论是:数学和编程方面,这款模型与o1-preview相当,甚至一些榜单结果上超越了o1。

比如美国数学竞赛(AMC)中最高难度级别的AIME,DeepSeek R1-Lite领先o1一大截!

推理时间更长了!但是效果更牛逼了!

DeepSeek提到,他们做了更强势的推理时间越长,性能越好

如下图所示,DeepSeek-R1-Lite-Preview和o1-preview对比,随着思考长度的增加,AIME 上的得分稳步提高。

预览版可以试用了,正式版在路上

DeepSeek团队透露,R1模型目前还在持续打磨中。

后续会推出正式版,并且开源,开放API,还会公布完整的技术细节。我已经等不及了,勇士们快点肝!

目前线上的还是预览版,每天可以50次免费测试~

想试试的小伙伴,链接我贴在这儿了:
https://chat.deepseek.com/

拉出来比武!

既然开测试了(让我白嫖)!那咱们就拿几道题测测它!

首先是大名鼎鼎的草莓问题。

问题:“strawberry”几个r?

先是不用o1,答错了。

再打开o1,答对了。

但是再试一遍,第一次思考了2秒,这次思考了14秒。

错了。。(请仔细看它的思考过程,中间说了好几遍“有两个r”,一遍遍否定自己,有继续得出错误结论)

试试openai的o1,也不对。

再来一个反转字母!

问题:请帮我将这串字符全部的字母反着写:QingguanzhuXixiaoyao!

家人们!我把它弄崩溃了!我看它委屈成这样我都心软软!

它反复怀疑自己,反复怀疑题目,氮素,最后它错的很离谱啊!

不仅字母没有顺利反转,而且还加了字符串外的字母~

而o1 就快速的做错了,错的简简单单,轻轻松松,不费力气hh:

虽然DeepSeek-R1-Lite号称更长的推理时间带来了更好的效果,但是好像结果上差别不大啊,o1甚至没有引入字符串的字母,错的都没有DeepSeek-R1-Lite离谱!这局的胜负难定!

再来一道!

问题:9.9和9.11哪个大?

看到前面推理过程磨磨叽叽犹犹豫豫,奶茶还以为这把又要搞砸了,结果DeepSeek-R1-Lite窝窝囊囊中的做对了!!

而o1还是干净利落的做错了hh~

还有编程问题,必须测一测。

问题:选了一道经典的leetcode问题,求长度最小的子数组。

它思考了整整一分钟,中间打印了好多步骤,最终,水灵灵滴得推理出来错误答案。。。

中间推理错了答案,最后,验证了错误答案。。

openAI o1则简短的给出了正确答案。

数学和编程问题就到此为止吧。

再来一道开放性题目!

问题:我很好奇大语言模型的未来,能不能帮我想个办法未来让大语言模型为我挣钱?

DeepSeek-R1-Lite

o1:

这样看下来,DeepSeek-R1-Lite在开放性答案上,想很多!

但是它输出的方案并不是很具体,没有什么可以借鉴的明确路线,而o1还能说出来点有用的答案!

结语

前不久讨论特别热烈的一个话题是“Scaling Law有没有撞南墙”,众多大佬下场发表看法。目前业界已经开始动摇了沿着Scaling Law继续走下去的信念,而o1是OpenAI提出来的LLM后时代的一条新路径,获取内部早就调转了车头也未可知。

仅从我们试用的一些case看,不足以代表DeepSeek-R1-Lite它的真实水平,但从中窥见,r1还有非常大的提升空间的。

但是,o1标注大模型从快思考进入慢思考,这条路还有许多可能和想象。DeepSeek这次是率先推出了国内版o1,追赶速度非常快,中国速度是牛的!要知道做事情从0-1的过程是最难的。

对于国产大模型的o1,我依然非常期待。



跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek R1-Lite o1推理 大语言模型 国产大模型 强化学习
相关文章