AI Insight Talk 2025-07-02 20:03 浙江
AI 编程助手已成为开发者不可或缺的伙伴,但一个核心问题也随之而来:我们该如何衡量它们真正的代码实力?现有
📊 CPRet评测基准揭示了相似问题会显著夸大模型通过率,为构建更公平的编程能力评测敲响了警钟。
🔄 DyCodeEval基准套件通过动态生成变体问题,有效抵御数据污染带来的评估偏差,为模型真实能力的透明评估提供了可靠方案。
💻 OSS-Bench基准生成器从真实开源项目中自动构建大规模、实时评测任务,有效避免了静态数据集的过拟合问题,并揭示了LLM在底层代码安全方面的短板。
🔍 UTBoost通过引入LLM驱动的测试用例生成器,自动增强测试套件,识别出错误代码补丁,大幅提升了Benchmark的评估严谨性。
🗣️ 圆桌讨论环节将聚焦模型Code能力发展趋势,邀请嘉宾深入互动,带来最前沿的洞见。
AI Insight Talk 2025-07-02 20:03 浙江
AI 编程助手已成为开发者不可或缺的伙伴,但一个核心问题也随之而来:我们该如何衡量它们真正的代码实力?现有
https://hub.opencompass.org.cn/dataset-detail/CPRet
No.2 DyCodeEval:动态“换皮”编程题,破解数据污染下的模型“高分幻觉”陈思敏现为哥伦比亚大学计算机科学系博士后研究员,2024 年 8 月于德克萨斯大学达拉斯分校(UTD)获得博士学位。他的研究方向聚焦于软件工程与机器学习的交叉,致力于提升机器学习系统的可信性与效率 (SE4AI),并推动机器学习在实际软件工程场景中的应用落地 (AI4SE)。为实现这一目标,他提出了涵盖机器学习全流程的系统性解决方案,协同推进模型算法(ESEC/FSE 2020、ASE 2022、CVPR 2022、ESEC/FSE 2022、ACL 2023、FSE 2024(b)、Usenix Security 2025)、系统软件栈(ISSTA 2023、IJCAI 2022)与数据集(CVPR 2023、FSE 2024(a)、ICML 2025)的创新研究。基于这些研成果,他的博士论文荣获 2024 年度 David Daniel Thesis Award。简要概述DyCodeEval 是一套在数据污染背景下动态评测代码大模型推理能力的新型基准套件。该方法借鉴“蜕变测试”思想,利用多智能体自动生成与原题核心逻辑相同但描述迥异的变体问题。实验证明,DyCodeEval 能有效抵御数据污染带来的评估偏差,为模型真实能力的透明评估提供了可靠方案。论文地址https://hub.opencompass.org.cn/dataset-detail/UTBoost
No.5 圆桌讨论环节讨论主题:模型 Code 能力发展趋势欢迎在公众号评论区留下您对本场 Code Bench 直播分享的疑问或期待,直播当天,主持人将精选问题与嘉宾深入互动,带来最前沿的洞见!👇点击关注ModelScope公众号获取
更多技术信息~
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑