原创 让你更懂AI的 2025-08-08 23:14 北京
写对代码不够了,写得对才行!
近日北航和 MAP 联合提出并开源了一个面向大模型(LLM)能力的新评测基准——IFEvalCode,聚焦于“可控代码生成”任务,支持多语言、跨编程语种、多维能力测评,并进一步提出了提升大模型可控性的新方法。
项目主页:
论文链接:
https://arxiv.org/pdf/2507.22462
背景
传统代码生成仅考察代码的功能正确性,而 IFEvalCode 进一步要求生成代码在风格、复杂度、结构和算法实现等多维约束下同时合规,体现大模型在复杂现实场景下的应用能力。
▲ 左:传统代码生成,仅需功能正确;右:IFEvalCode 新增多项要求,例如需使用递归、不准出现中间变量、代码总行数受限等,可检验大模型生成代码的精细可控能力。
主要内容
构建了 IFEvalCode 评测集,包含 1620 条涵盖八大主流编程语言(Python、Java、C++、C#、TypeScript、JavaScript、PHP、Shell)、中英双语的代码任务。
每个任务同时设置功能正确性与多维可控性约束判定,并为所有任务配备自动化可验证判断逻辑。
设计了“前向约束生成(给定约束自动生成任务)”和“后向约束生成(自动抽取代码潜在约束)”两种自动化数据构建方案,并构建了多语言指令语料库,用于提升 LLM 的代码可控生成能力。
系统评测了 40 余个主流开源及闭源大模型(包括 GPT-4、Claude3 系列及各类国内外开源模型),分析了大模型在多语言、多任务下的代码可控生成表现。
评测集设计细节
1. 约束类型分布
▲ 左:给定代码约束条件数量的分布统计。大部分任务含有 4~6 个细粒度可控约束,保证测评粒度和难度;右:不同数量约束条件下,主流大模型在功能正确性与可控性约束两项指标下的表现趋势。可见随着约束增多,模型完成任务的难度大幅增加。
2. 任务覆盖与分布
▲ 图左为 IFEvalCode 覆盖的主要领域类型,如算法、软件工程、数据库、人工智能等;图右为各类可控约束的细分类型,包括命名规范、代码结构、算法复杂度、注释风格等,覆盖现实项目中多样化的工程要求。
3. 跨主流评测集对比
▲ IFEvalCode 与各类主流代码评测集(如 HumanEval、MBPP、McEval 等)全面对比。可见 IFEvalCode在 多语种、多编程语言、任务规模、任务难度和可控性约束验证等多项指标上有显著提升。
4. 数据与模型工作流全流程
▲ IFEvalCode 的自动化数据构建及校验流程示意。包括海量代码采集与过滤、多语言/多约束任务自动构建、自动判题脚本生成、模型训练微调及全面评测闭环。
典型案例展示
▲ IFEvalCode 中实际任务与代码校验示例,展示了如何设定多种可控约束并自动化实现验证判题,保证评测的客观性与准确性。评测集收录丰富的多语种、多语言、多类型约束任务示例,覆盖日益复杂的软件开发真实需求。
模型评测与实验分析
1. 宏观实验发现
整体趋势:现有主流大模型在功能正确性上表现普遍优于可控性(即更容易生成功能达标代码,难以满足细致风格与结构约束)。
模型规模影响显著:模型参数越大、采用专用指令训练的数据越丰富,代码可控生成表现越强。
多语言与中英文切换下,主流模型表现分化:中英文任务下模型表现一致性较好,但复杂约束下,模型遵循指令的能力下降更明显。
开源与闭源差距:Claude3、GPT-4 等闭源模型依然领先,但开源代码专用模型(如 Qwen2.5-coder、Deepseek-Coder 等)差距逐步缩小。
2. 交叉能力分析
▲ 在所有 8 种编程语言下,以 Venn 图方式展示:模型分别在中文提示/英文提示下,功能正确性与指令可控性通过的交集和分布。可见功能正确性通过样本主导,且中英切换对正确率影响有限,但指令遵循下的交集远小于功能通过集,表明可控性生成仍有提升空间。
总结与开放
IFEvalCode 聚焦现实代码生产中的多语言和可控性痛点,已完成全流程自动化实现,全套数据、流程及判题脚本均将开源。欢迎业界和学术界基于该基准进行模型能力优化和新算法探索。
作者与机构
杨健,北京航空航天大学计算机学院副教授,在 ICLR、NeurIPS、ACL 等国际期刊/会议发表第一/通讯作者 20 余篇,谷歌学术引用 8000+ 次,并担任 NeurIPS、ACL 等国际会议的领域主席。曾作为阿里星入职 Qwen,积极推动代码大模型开源。
张蔚,北京航空航天大学和上海人工智能实验室联合培养在读博士一年级,主要研究方向为代码智能,曾经在通义千问实习。
李舟军,北京航空航天大学计算机学院教授,信息安全系主任,智能信息处理研究所副所长。国务院学位委员会首届网络空间安全学科评议组成员,中国人工智能学会语言智能专委会副主任委员,深圳智能思创创始人与首席科学家。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·