IT之家 01月19日
DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek 新模型 R1-Preview 在代码基准测试 LiveCodeBench 上表现出色,与 OpenAI o1 的中档推理设置相当。该模型替换了更大规模的基础模型,相较于之前的轻量版,性能显著提升。LiveCodeBench 团队与 DeepSeek 合作评估新模型能力,并修复了评分系统的bug。DeepSeek 此前已宣布 R1 模型将开源,引发网友对未来编程便利性的期待。此外,OpenAI 也即将推出 o3-mini,并计划在 2025 年合并 GPT 系列和 o 系列模型,预示着 AI 技术的快速发展。

🥇DeepSeek R1-Preview 模型在 LiveCodeBench 代码基准测试中表现优异,位列前三,代码能力与 OpenAI o1 中档推理设置相当。

🚀 DeepSeek R1-Preview 替换了更大规模的基础模型,性能较之前的轻量版有显著提升,并且在某些情况下展现出自我纠正的推理能力。

🤝 LiveCodeBench 团队与 DeepSeek 合作评估新模型能力,并发现了评分系统的bug,这表明双方的合作有助于提高模型的可靠性和评估的准确性。

🔑 DeepSeek 宣布 R1 模型将开源,这意味着用户将有机会免费使用与 OpenAI o1 编程能力相当的模型,这将极大地推动 AI 技术在编程领域的应用。

🤖 OpenAI 计划推出 o3-mini 模型,并计划在 2025 年合并 GPT 系列和 o 系列模型,这表明 AI 领域正朝着更强大、更高效、更集成的方向发展。

DeepSeek 版 o1,有消息了。

还未正式发布,已在代码基准测试 LiveCodeBench 霸榜前三,表现与 OpenAI o1 的中档推理设置相当

注意了,这不是在 DeepSeek 官方 App 已经能试玩的 DeepSeek-R1-Lite-Preview(轻量预览版)。

而是摘掉了轻量版的帽子,称为 DeepSeek-R1-Preview(预览版),意味着替换了规模更大的基础模型。

LiveCodeBench 团队透露,他们正在与 DeepSeek 合作评估新模型的能力,在合作过程中,DeepSeek 团队还帮他们找出并解决了评分系统的一些 bug。

与此同时,他们还晒出了目前仅有的一张 DeepSeek-R1-Preview 的思考过程。

鉴于 DeepSeek 此前已宣布 R1 模型将开源,有网友表示,与 OpenAI o1 编程能力相当的开源模型即将发布,2025 年的编程就只剩下按 Tab 键了。

DeepSeek 推理大模型满血版

两个月前,DeepSeek 在官网上线 DeepSeek-R1-Lite-Preview 时曾透露:

DeepSeek-R1-Lite-Preview 使用强化学习训练,推理含大量反思和验证,遵循新的 Scaling Laws—— 推理越长,表现越强

在 AIME 测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview 表现出稳定的得分提升。

DeepSeek-R1-Lite 推理的特点在网友们的后续测试中也得到了验证:

在某些情况下,模型似乎能够在生成推理步骤时自我纠正,表现出类似原生“自我反思”的能力。不过,没有训练数据、模型架构和技术报告 / 论文的细节,很难确认这一点。

期待未来的开源模型和 API!

摘掉 Lite 的帽子,变成 DeepSeek-R1-Preview,意味着换了更大的基础模型。

之前 Lite 版就在难度较高数学和代码任务上超越 o1-preview,大幅领先 GPT-4o。

这次在 LiveCodeBench 上,这次的 DeepSeek-R1-Preview 的表现又与 OpenAI o1-Medium 相当,网友们更加期待开源模型和 API 了。

LiveCodeBench 由 UC 伯克利、MIT 和康奈尔大学团队推出,旨在对大模型的代码能力进行全面且无污染的评估。

具体避免测试数据泄露的方法,是随着时间的推移不断从人类的编程竞赛平台收集新的题目。

除了代码生成,还会评估模型在代码自修复、执行和测试输出预测等方面的能力。这样实时更新、确保公平性和可靠性的测试方法,获得了开发者社区的认可。

还有程序猿喊话 Cursor 直接把 R1-Preview 集成到 Agent mode 里:

One More Thing

赶在春节前,许多还在做训练的国产大模型团队,都把自家模型更新了一遍。OpenAI 似乎要趁这边放假开始搞事情了(狗头),阿尔特曼发帖透露:

o3-mini 完成外部合作测试,已确定最终版,将在几周内推出,会同时上线 API 和 ChatGPT。

在后续对话中,阿尔特曼还确认了未来模型更多基本情况:

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨、西风,原标题《DeepSeek 新模型霸榜,代码能力与 OpenAI o1 相当且确认开源,网友:今年编程只剩 Tab 键》

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek OpenAI 代码能力 开源模型 LiveCodeBench
相关文章