推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

IT之家 2024年11月20日

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

DeepSeek全新研发的推理模型DeepSeek-R1-Lite预览版正式上线。该模型使用强化学习训练，在多种推理任务上表现出色，但其仍在迭代开发阶段，目前仅支持网页使用，正式版将开源并公开相关服务。

DeepSeek-R1-Lite使用强化学习训练，推理过程包含大量反思和验证。

该模型在数学、代码等推理任务上取得媲美OpenAI的效果，并超越GPT-4o等。

模型在推理过程长，准确率与给定推理长度呈正相关，但目前处于迭代阶段。

IT之家 11 月 20 日消息，DeepSeek 宣布，全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线。

官方表示，DeepSeek R1 系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美 OpenAI o1-preview 的推理效果，并为用户展现了 o1 没有公开的完整思考过程。

DeepSeek-R1-Lite 预览版模型在美国数学竞赛（AMC）中难度等级最高的 AIME 以及全球顶级编程竞赛（codeforces）等评测中，超越了 GPT-4o 等知名模型。

DeepSeek-R1-Lite 的推理过程长，并且包含了大量的反思和验证。下图展示了模型在数学竞赛上的得分与测试所允许思考的长度紧密相关。

▲ 红色实线展示了模型所能达到的准确率与所给定的推理长度呈正相关

IT之家注意到，DeepSeek-R1-Lite 目前仍处于迭代开发阶段，仅支持网页使用，暂不支持 API 调用。DeepSeek-R1-Lite 所使用的也是一个较小的基座模型，无法完全释放长思维链的潜力。

官方称正式版 DeepSeek-R1 模型将完全开源，并公开技术报告和部署 API 服务。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-R1-Lite 强化学习推理任务迭代开发

相关文章

Teaching Large Language Models to Reason with Reinforcement Learning with Alex Havrilla - #680

AI Trends 2024: Reinforcement Learning in the Age of LLMs with Kamyar Azizzadenesheli - #670

AI Trends 2023: Reinforcement Learning - RLHF, Robotic Pre-Training, and Offline RL with Sergey Levine - #612

Reinforcement Learning for Personalization at Spotify with Tony Jebara - #609

Deep Learning, Transformers, and the Consequences of Scale with Oriol Vinyals - #546

The Benefit of Bottlenecks in Evolving Artificial Intelligence with David Ha - #535

Advancing Deep Reinforcement Learning with NetHack, w/ Tim Rocktäschel - #527

Applying RL to Real-World Robotics with Abhishek Gupta - #466

Off-Line, Off-Policy RL for Real-World Decision Making at Facebook - #448

MOReL: Model-Based Offline Reinforcement Learning with Aravind Rajeswaran - #442