36kr 2024年12月26日
超越Claude 3.5紧追o1,DeepSeek-V3-Base开源,编程能力暴增近31%
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek AI公司开源了最新的混合专家语言模型DeepSeek-V3-Base,该模型采用685B参数的MoE架构,包含256个专家,并使用sigmoid路由方式。在Aider多语言编程测评中,DeepSeek-V3-Base的编程能力超越了多个竞品模型,仅次于OpenAI o1-2024-12-17 (high),编程性能较V2版本提升了近31%。LiveBench基准测试也显示其整体性能优异,在多个维度上超越了gemini-2.0-flash-exp和Claude 3.5 Sonnet等模型。DeepSeek v3在模型参数和结构上都有显著提升,如词汇量、隐藏层大小和数量等,均显著高于v2版本。开源模型的快速发展,预示着2025年人工智能领域将迎来重要变革。

🚀DeepSeek-V3-Base模型采用685B参数的MoE架构,包含256个专家,通过sigmoid路由选择前8个专家进行计算,这种稀疏激活方式提高了模型的效率。

💻在Aider多语言编程测评中,DeepSeek-V3-Base的编程能力显著提升,超越了claude-3.5-sonnet等多个竞品,且相较于V2版本,编程性能提升了近31%,表明其在代码生成和理解方面取得了重大进步。

📊LiveBench基准测试显示,DeepSeek-V3在整体性能、推理、编程、数学等多个方面都表现出色,超越了gemini-2.0-flash-exp和Claude 3.5 Sonnet等模型,展现了其强大的综合能力。

💡DeepSeek v3版本在多个参数上进行了升级,包括词汇量从102400增加到129280,隐藏层大小和数量也大幅提升,同时采用了sigmoid函数作为模型评分函数,这些改进促成了性能的显著提升。

在 2024 年底,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了最新的混合专家(MoE)语言模型 DeepSeek-V3-Base。不过,目前没有放出详细的模型卡。 

HuggingFace 下载地址:https://huggingface.co/DeepSeek-ai/DeepSeek-V3-Base/tree/main

具体来讲,DeepSeek-V3-Base 采用了 685B 参数的 MoE 架构,包含 256 个专家,使用了 sigmoid 路由方式,每次选取前 8 个专家(topk=8)。 

图源:X@arankomatsuzaki 

该模型利用了大量专家,但对于任何给定的输入,只有一小部分专家是活跃的,模型具有很高的稀疏性。 

图源:X@Rohan Paul 

从一些网友的反馈来看,API 显示已经是 DeepSeek-V3 模型。 

图源:X@ruben_kostard 

同样地,聊天(chat)界面也变成了 DeepSeek-v3。 

图源:X@Micadep 

那么,DeepSeek-V3-Base 性能怎么样呢?Aider 多语言编程测评结果给了我们答案。 

先来了解一下 Aider 多语言基准,它要求大语言模型(LLM)编辑源文件来完成 225 道出自 Exercism 的编程题,覆盖了 C++、Go、Java、JavaScript、Python 和 Rust 等诸多编程语言。这 225 道精心挑选的最难的编程题给 LLM 带来了很大的编程能力挑战。 

该基准衡量了 LLM 在流行编程语言中的编码能力,以及是否有能力编写可以集成到现有代码的全新代码。 

从下表各模型比较结果来看,DeepSeek-V3-Base 仅次于 OpenAI o1-2024-12-17 (high),一举超越了 claude-3.5-sonnet-20241022、Gemini-Exp-1206、o1-mini-2024-09-12、gemini-2.0-flash-exp 等竞品模型以及前代 DeepSeek Chat V2.5。 

其中与 V2.5(17.8%)相比,V3 编程性能暴增到了 48.4%,整整提升了近 31%。 

另外,DeepSeek-V3 的 LiveBench 基准测试结果也疑似流出。我们可以看到,该模型的整体、推理、编程、数学、数据分析、语言和 IF 评分都非常具有竞争力,整体性能超越 gemini-2.0-flash-exp 和 Claude 3.5 Sonnet 等模型。 

图源:reddit@homeworkkun 

HuggingFace 负责 GPU Poor 数据科学家 Vaibhav (VB) Srivastav 总结了 DeepSeek v3 与 v2 版本的差异: 

根据配置文件,v2 与 v3 的关键区别包括: 

vocab_size:v2: 102400 v3: 129280 

hidden_size:v2: 4096 v3: 7168

intermediate_size:v2: 11008 v3: 18432

隐藏层数量:v2:30 v3:61  

注意力头数量:v2:32 v3:128  

最大位置嵌入:v2:2048 v3:4096

v3 看起来像是 v2 的放大版本。 

图源:X@reach_vb 

值得注意的是,在模型评分函数方面,v3 采用 sigmoid 函数,而 v2 采用的是 softmax 函数。 

网友热评:开源模型逼近 SOTA

众多纷纷网友表示,Claude 终于迎来了真正强劲的对手,甚至在一定程度上 DeepSeek-V3 可以取代 Claude 3.5。 

还有人感叹道,开源模型继续以惊人的速度追赶 SOTA,没有放缓的迹象。2025 年将成为 AI 最重要的一年。 

参考链接: 

https://aider.chat/docs/leaderboards/ 

https://www.reddit.com/r/LocalLLaMA/comments/1hm4959/benchmark_results_deepseek_v3_on_livebench/ 

本文来自微信公众号“机器之心”,编辑:杜伟、小舟,36氪经授权发布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-V3 MoE 开源模型 Aider LiveBench
相关文章