快科技资讯 01月16日
阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里云通义开源了全新的数学推理过程奖励模型Qwen2.5-Math-PRM,包含72B和7B两种尺寸,其性能均大幅超越同类开源模型。尤其在识别推理错误步骤的能力上,7B模型甚至超越了GPT-4o。此外,通义团队还开源了首个步骤级的评估标准ProcessBench,填补了大模型推理过程错误评估的空白。ProcessBench包含3400个数学问题测试案例,并由专家标注推理过程,可全面评估模型识别错误步骤能力。Qwen2.5-Math-PRM在ProcessBench上的表现突出,证明了过程奖励模型在提高推理可靠性方面的潜力。

🚀阿里云通义开源Qwen2.5-Math-PRM数学推理模型,包含72B和7B两种尺寸,性能显著超越同类开源模型。

🎯Qwen2.5-Math-PRM在识别推理错误步骤能力上表现突出,7B模型甚至超越了闭源的GPT-4o。

📊通义团队开源了首个步骤级评估标准ProcessBench,包含3400个数学问题测试案例,用于全面评估模型识别错误步骤的能力。

💡过程奖励模型(PRM)的成功应用,为未来开发推理过程监督技术提供了新的方向,显著提高了推理的可靠性。

快科技1月16日消息,今日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。

据悉,在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时,通义团队还开源了首个步骤级的评估标准 ProcessBench,此项评估标准填补了大模型推理过程错误评估的空白。

据了解,为更好衡量模型识别数学推理中错误步骤的能力,通义团队提出的全新评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

此外,在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这证明了过程奖励模型(PRM)能够显著提高推理的可靠性,为未来开发推理过程监督技术开辟了新的途径。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

阿里云 通义 数学推理 Qwen2.5-Math-PRM ProcessBench
相关文章