合规观澜 2025-01-26 18:30 北京
2025年1月20日, DeepSeek正式发布DeepSeek-R1模型。该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。
据新华社报道,中共中央政治局常委、国务院总理李强1月20日下午主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议。座谈会上,张辉、任少波、刘珺、梁文锋、魏洪兴、陈学东、陈红彦、杜斌、邹敬园等先后发言。
其中,梁文锋正是头部量化私募幻方量化创始人、DeepSeek的创始人。
2008年起,梁文锋就开始带领团队使用机器学习等技术探索全自动量化交易。2015年,幻方量化正式成立,2019年,其资金管理规模就突破百亿元。2021年,幻方量化成为国内首家突破千亿规模的的量化私募大厂,被称为国内量化私募“四大天王”之一,不过,就在这一年,由于业绩波动,幻方量化关闭了全部募集通道。
2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式进军通用人工智能领域。据报道,DeepSeek包括创始人梁文锋在内,仅有139名工程师和研究人员。与之对比,OpenAI有1200名研究人员,Anthropic则有500多名研究人员。
2024年5月,DeepSeek就发布了DeepSeekV2,因为创新的模型架构和史无前例的性价比,火爆出圈。DeepSeek-V2的API定价为每百万tokens输入1元、输出2元,价格仅为GPT-4 Turbo的百分之一。
2024年12月27日,DeepSeek-V3更是横空出世,火爆全球。据DeepSeek官网显示,其评测成绩不仅超越了Qwen2.5-72B(阿里自研大模型)和Llama 3.1-405B(Meta自研大模型)等顶级开源模型,甚至能和GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等顶级闭源模型一较高下。
DeepSeek宣布上线并同步开源DeepSeek-V3模型之外,还公布了长达53页的训练和技术细节。得到大幅升级的V3模型是在一个“难以想象”的预算下训练完成的:整个训练仅花费了557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版 GPU)集群上运行55天完成,仅是OpenAI GPT-4o模型训练成本的不到十分之一。
2025年1月20日, DeepSeek正式发布DeepSeek-R1模型。该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。
据DeepSeek官网信息,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
蒸馏小模型超越 OpenAI o1-mini:在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
API 及定价:DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。
截至1月26日,DeepSeek在苹果 App Store应用商店美区免费榜排行第六,超越Google Gemini、Microsoft Copilot等美国生成式 AI 产品。
「READING」
据英国科技周刊《自然》(Nature)和英国科技网站“生命科学”(Live Science)等报道,深度求索(DeepSeek)去年12月发布免费语言大模型DeepSeek V3,并称在两个月内花费558万美元完成训练该模型,所需时间和费用仅硅谷竞争对手的十分之一。
中国对冲基金幻方量化旗下的子公司深度求索星期一(1月20日)发布推理模型DeepSeek-R1,在第三方多个项目的基准测试中均超越美国OpenAI开发的最新模型o1。
据美国消费者新闻与商业频道(CNBC)报道,美国微软首席执行官纳德拉星期三(1月22日)在达沃斯世界经济论坛上说,深度求索的新模型令人印象深刻,不仅因为他们有效地构建一个开源模型,还因为它的推理计算效率极高。“我们应该非常严肃地看待中国人工智能(AI)的发展”。
除测试表现优于o1外,R1的训练成本和开源开放程度也胜于o1。《自然》周刊报道称,开源开放指的是,让用户参与二次开发,可更改演算法。虽然可自由重复使用,但R1的开源开放程度仍受限,因为训练数据尚未公开。
《每日经济新闻》引述深度求索发布的技术报告称,R1的训练成本是o1的三十分之一。《自然》周刊报道称,R1给用户开出低廉的使用方案,是o1的三十分之一。
让西方科技界赞叹的是,深度求索在受美国限制先进科技输华的背景下,依然开发出创新的模型。
“生命科学”报道称,美国限制向中企出口先进AI计算芯片,迫使R1研发者采用更智能和有效的演算法,以弥补演算能力的不足。ChatGPT据报需要一万台英伟达的图像处理器处理训练数据,深度求索工程师称他们仅用2000台图像处理器就取得相同结果。
「READING」
Techopedia网站发布的R1 与 o1,关键性能指标对比:
R1 与 o1 相比如何?如果我们查看 DeepSeek 研究论文中概述的性能指标,那么我们会看到 R1 在一系列数学和编码任务中的表现与 o1 相当。以下是两种型号性能的简要比较:
这些分数值得注意的是 R1 和 o1 在整体上的表现非常接近。在 AIME 2024 上,MATH-500、codeforces、MMLU 和 SWE-bench 验证了分数几乎相同。
我们看到 o1 唯一略有下降的基准是 GPQA Diamond,这是一组由生物学、物理学和化学领域的专家编写的多项选择题。
「READING」
《经济日报》1月26日发表以《大模型身廋路更宽》为题的文章提出上述观点,指这种技术突破不仅降低了AI大模型的硬件门槛和能源消耗,更重要的是为人工智能(AI)技术普惠化铺平了道路。因为更小的模型意味着更低的部署成本、更快的响应速度和更广泛的应用场景。在医疗、教育、制造等诸多领域,轻量级AI模型都将带来革命性的转变。
文章也称,模型并非越大越好,而是越精越妙。大模型“瘦身”促进了AI技术的创新和突破。为了在减少参数的同时保持甚至提升模型性能,研究人员不得不深入挖掘模型架构的优化空间,探索更高效的算法和训练方法。这一过程推动了人工智能基础理论的发展,也为相关技术的跨领域应用开创了新局面。
不过文章也指出,大模型“瘦身”没到终点站,仍面临诸多挑战。如何在保证模型性能的前提下实现最大程度的“瘦身”,是当前需要解决的关键问题。同时,“瘦身”后的模型如何在不同场景下保证适应性和稳定性,也需要进一步验证和优化。