PaperWeekly 4小时前
函数能跑但写法离谱?北航IFEvalCode出手,专治多语言代码生成“不讲武德”
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近日,北京航空航天大学与MAP联合推出IFEvalCode,一个专注于“可控代码生成”的大模型能力新评测基准。该基准支持多语言、跨编程语种及多维能力测评,并提出提升大模型可控性的新方法。IFEvalCode包含1620条多语言代码任务,不仅考察功能正确性,更强调代码在风格、复杂度、结构等方面的精细化约束。通过自动化数据构建和验证,IFEvalCode能有效评估大模型在复杂现实场景下的代码生成能力。评测结果显示,模型规模和专用训练数据对代码可控性表现有显著影响,闭源模型仍领先但开源模型差距缩小。该基准的发布旨在推动大模型在代码生成领域的进一步发展。

💡 IFEvalCode:革新代码生成评测,超越功能性,聚焦多维度可控性。该评测基准由北航和MAP联合提出,旨在全面评估大模型在生成代码时遵循特定风格、复杂度、结构和算法实现等精细化约束的能力,弥补了传统代码生成评测仅关注功能正确性的不足,更贴近真实软件开发中的复杂需求。

🌐 多语言、多约束:IFEvalCode构建了涵盖八大主流编程语言(Python, Java, C++, C#, TypeScript, JavaScript, PHP, Shell)及中英双语的1620条代码任务。每个任务均包含功能正确性与多维可控性约束,并辅以自动化验证逻辑,确保了评测的广度和深度。

🚀 自动化数据构建与模型评估:项目设计了“前向约束生成”和“后向约束生成”两种自动化方案,构建了多语言指令语料库,用于提升大模型的可控代码生成能力。同时,对40余个主流大模型进行了系统评测,分析了其在多语言和多任务下的表现,揭示了模型规模、训练数据、开源闭源等因素对可控性生成的影响。

📈 关键评测发现:现有大模型在功能正确性上普遍优于可控性,模型规模和专用指令训练数据是提升代码可控性的关键。闭源模型如GPT-4和Claude3系列仍处于领先地位,但Qwen2.5-coder、Deepseek-Coder等开源代码专用模型正在快速缩小差距,显示出开源社区的巨大潜力。

原创 让你更懂AI的 2025-08-08 23:14 北京

写对代码不够了,写得对才行!

近日北航和 MAP 联合提出并开源了一个面向大模型(LLM)能力的新评测基准——IFEvalCode,聚焦于“可控代码生成”任务,支持多语言、跨编程语种、多维能力测评,并进一步提出了提升大模型可控性的新方法。

项目主页:

https://ifevalcode.github.io/

论文链接:

https://arxiv.org/pdf/2507.22462


背景

传统代码生成仅考察代码的功能正确性,而 IFEvalCode 进一步要求生成代码在风格、复杂度、结构和算法实现等多维约束下同时合规,体现大模型在复杂现实场景下的应用能力。


▲ 左:传统代码生成,仅需功能正确;右:IFEvalCode 新增多项要求,例如需使用递归、不准出现中间变量、代码总行数受限等,可检验大模型生成代码的精细可控能力。


主要内容


评测集设计细节

1. 约束类型分布

▲ 左:给定代码约束条件数量的分布统计。大部分任务含有 4~6 个细粒度可控约束,保证测评粒度和难度;右:不同数量约束条件下,主流大模型在功能正确性与可控性约束两项指标下的表现趋势。可见随着约束增多,模型完成任务的难度大幅增加。

2. 任务覆盖与分布

▲ 图左为 IFEvalCode 覆盖的主要领域类型,如算法、软件工程、数据库、人工智能等;图右为各类可控约束的细分类型,包括命名规范、代码结构、算法复杂度、注释风格等,覆盖现实项目中多样化的工程要求。

3. 跨主流评测集对比

▲ IFEvalCode 与各类主流代码评测集(如 HumanEval、MBPP、McEval 等)全面对比。可见 IFEvalCode在 多语种、多编程语言、任务规模、任务难度和可控性约束验证等多项指标上有显著提升。

4. 数据与模型工作流全流程

▲ IFEvalCode 的自动化数据构建及校验流程示意。包括海量代码采集与过滤、多语言/多约束任务自动构建、自动判题脚本生成、模型训练微调及全面评测闭环。


典型案例展示

▲ IFEvalCode 中实际任务与代码校验示例,展示了如何设定多种可控约束并自动化实现验证判题,保证评测的客观性与准确性。评测集收录丰富的多语种、多语言、多类型约束任务示例,覆盖日益复杂的软件开发真实需求。


模型评测与实验分析

1. 宏观实验发现

2. 交叉能力分析

▲ 在所有 8 种编程语言下,以 Venn 图方式展示:模型分别在中文提示/英文提示下,功能正确性与指令可控性通过的交集和分布。可见功能正确性通过样本主导,且中英切换对正确率影响有限,但指令遵循下的交集远小于功能通过集,表明可控性生成仍有提升空间。


总结与开放

IFEvalCode 聚焦现实代码生产中的多语言和可控性痛点,已完成全流程自动化实现,全套数据、流程及判题脚本均将开源。欢迎业界和学术界基于该基准进行模型能力优化和新算法探索。

作者与机构

杨健,北京航空航天大学计算机学院副教授,在 ICLR、NeurIPS、ACL 等国际期刊/会议发表第一/通讯作者 20 余篇,谷歌学术引用 8000+ 次,并担任 NeurIPS、ACL 等国际会议的领域主席。曾作为阿里星入职 Qwen,积极推动代码大模型开源。

张蔚,北京航空航天大学和上海人工智能实验室联合培养在读博士一年级,主要研究方向为代码智能,曾经在通义千问实习。

李舟军,北京航空航天大学计算机学院教授,信息安全系主任,智能信息处理研究所副所长。国务院学位委员会首届网络空间安全学科评议组成员,中国人工智能学会语言智能专委会副主任委员,深圳智能思创创始人与首席科学家。

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 


如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编


🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

IFEvalCode 大模型 代码生成 可控性 评测基准
相关文章