DeepSeek 2024年10月28日
DeepSeek-V2.5:融合通用与代码能力的全新开源模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek-V2.5完成两个模型合并后正式发布,保留原有能力并更好对齐人类偏好,在多个方面实现提升且已全面上线。它还经过通用能力、安全能力、代码能力等测评,并已开源。

🥇DeepSeek-V2.5保留原有Chat模型通用对话能力和Coder模型强大代码处理能力,且对齐人类偏好,在写作、指令跟随等多方面大幅提升。

📈该模型在网页端及API全面上线,API接口向前兼容,用户通过特定方式可访问,部分功能保持不变,将带来更简洁、智能、高效使用体验。

💪在通用能力测评中,DeepSeek-V2.5在多个测试集上表现优于之前版本,内部中文评测中对战胜率也有明显提升。

🛡️在安全能力测评中,DeepSeek-V2.5对模型安全问题边界做了更清晰划分,强化安全性同时减少对正常问题的过度影响。

💻在代码能力方面,DeepSeek-V2.5保留强大代码能力并有所改进,在部分测试中显示显著提升,对代码常见场景进行优化,内部评测胜率提高。

原创 深度求索 2024-09-06 19:38 北京

DeepSeek-V2.5 不仅保留了原有 Chat 模型的通用对话能力和 Coder 模型的强大代码处理能力,还更好地对齐了人类偏好

今天,我们完成了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2 两个模型的合并,正式发布 DeepSeek-V2.5

DeepSeek-V2.5 不仅保留了原有 Chat 模型的通用对话能力和 Coder 模型的强大代码处理能力,还更好地对齐了人类偏好。此外,DeepSeek-V2.5 在写作任务、指令跟随等多个方面也实现了大幅提升。

DeepSeek-V2.5 现已在网页端及 API 全面上线,API 接口向前兼容,用户通过deepseek-coder 或 deepseek-chat 均可以访问新的模型。同时,Function Calling、FIM 补全、Json Output 等功能保持不变。

All-in-One 的 DeepSeek-V2.5 将为用户带来更简洁、智能、高效的使用体验。

升级历史

DeepSeek 一直专注于模型的改进和优化。在 6 月份,我们对 DeepSeek-V2-Chat 进行了重大升级,用 Coder V2 的 Base 模型替换原有的 Chat 的 Base 模型,显著提升了其代码生成和推理能力,并发布了 DeepSeek-V2-Chat-0628 版本。紧接着,DeepSeek-Coder-V2 在原有 Base 模型的基础上,通过对齐优化,大大提升通用能力后推出了 DeepSeek-Coder-V2 0724 版本。最终,我们成功将 Chat 和 Coder 两个模型合并,推出了全新的DeepSeek-V2.5 版本。

由于本次模型版本变动较大,如出现某些场景效果变差,建议重新调整 System Prompt 和 Temperature,以获得最佳性能。

通用能力

首先,我们使用业界通用的测试集对 DeepSeek-V2.5 的能力进行测评,在中文和英文四个测试集上,DeepSeek-V2.5 均优于之前的 DeepSeek-V2-0628 以及 DeepSeek-Coder-V2-0724。

在我们内部的中文评测中,和 GPT-4o mini、ChatGPT-4o-latest 的对战胜率(裁判为 GPT-4o)相较于 DeepSeek-V2-0628 均有明显提升。此测评中涵盖创作、问答等通用能力,用户使用体验将得到提升:

DeepSeek-v2.5 Preference Evaluation

Safety 和 Helpful 之间的权衡是我们在迭代开发中一直重点关注的问题。在 DeepSeek-V2.5 版本中,我们对于模型安全问题的边界做了更加清晰的划分,在强化模型对于各种越狱攻击的安全性的同时,减少了安全策略过度泛化到正常问题中去的倾向。

*基于内部测试集合的得分,分数越高代表模型的整体安全性越高

**基于内部测试集合的得分,比例越低代表模型的安全策略对于正常问题的影响越小

代码能力

在代码方面,DeepSeek-V2.5 保留了 DeepSeek-Coder-V2-0724 强大的代码能力。在 HumanEval Python 和LiveCodeBench(2024 年 1 月 - 2024 年 9 月)测试中,DeepSeek-V2.5 显示了较为显著的改进。在 HumanEval Multilingual 和 Aider 测试中,DeepSeek-Coder-V2-0724 略胜一筹。在 SWE-verified 测试中,两个版本的表现都较低,表明在此方面仍需进一步优化。另外,在FIM补全任务上,内部评测集DS-FIM-Eval的评分提升了 5.1%,可以带来更好的插件补全体验。

另外,DeepSeek-V2.5对代码常见场景进行了优化,以提升实际使用的表现。在内部的主观评测 DS-Arena-Code 中,DeepSeek-V2.5 对战竞品的胜率(GPT-4o 为裁判)取得了显著提升。

模型开源

一如既往,秉持着持久开源的精神,DeepSeek-V2.5 现已开源到了 HuggingFace:

https://huggingface.co/deepseek-ai/DeepSeek-V2.5

——end——

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek-V2.5 模型合并 能力提升 开源精神 安全优化
相关文章