AIDC-AI 2025-05-20 14:30 浙江
近日,ACL 2025 (Annual Meeting of the Association for Computational Linguistics) 论文接收结果公布,阿里国际AI Busine...
这是2025年的第57篇文章
( 本文阅读时间:15分钟 )
01
摘要
近日,第63届国际计算语言学年会ACL 2025 (Annual Meeting of the Association for Computational Linguistics,简称ACL) 论文接收结果公布,阿里国际AI Business技术团队多篇论文被录用。
ACL是自然语言处理领域最具影响力的国际会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。该会议每年举办一次,由国际计算语言学学会协会主办。会议同期将举办技术研讨会、行业论坛及学生竞赛,推动产学研深度结合。
本届会议将于 2025 年 7 月 27 日至 8 月 1 日 在奥地利维也纳举行。据统计,今年ACL总投稿数高达8000多篇,创历史之最,被称为ACL论文收录竞争最为激烈的一年。AI Business技术团队共被录取9篇论文,含6篇主会长文。主题涵盖了大语言模型、推理大模型、机器翻译、多模态模型、AI for science等方向。接下来为大家介绍入选论文,后续我们将邀请论文作者详细解析论文思路和技术成果,欢迎关注~
02
AI Business技术·论文摘要
作者:Huifeng Yin, Yu Zhao, Minghao Wu, Xuanfan Ni, Bo Zeng, Hao Wang, Tianqi Shi, Liangying Shao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
链接:https://arxiv.org/abs/2503.01461
🏷 Marco-o1 V2:拓宽推理模型蒸馏瓶颈的新探索
摘要: 大规模推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,通过提升推理计算和生成更长的思维链(Chain-of-Thought, CoT),展现了强大的推理能力。为了让小模型也具备类似的推理能力,业界常用“蒸馏”技术——即用大模型生成的数据对小模型进行再训练。然而,我们发现:直接用大模型生成的长思维链数据训练小模型,不仅难以学习,还容易让小模型继承“过度思考”等偏差,尤其是在有监督微调(SFT)和强化学习(RL)阶段。
为了解决这一瓶颈,论文提出了创新方案:利用蒙特卡洛树搜索(MCTS)从零构建树状思维链数据,并结合一系列 CoT 感知方法(如思维链长度平衡、细粒度 DPO、联合后训练目标),显著提升了小模型在推理任务中的表现。我们的方法在五个以考试为导向和开放式的基准测试上进行了验证,涵盖了三种不同难度的数学任务(GSM8K、MATH 和 AIME)、八种语言的指令跟随(Multi-IF)以及真实世界的规划任务(Blocksworld)。实验结果显示,我们提出的方法在所有任务上都能持续且独立地提升推理表现,显著优于传统蒸馏模型。这一提升主要得益于在长链式思考过程中减少了幻觉现象,尤其是内容重复,从而有效降低了“无答案”现象,整体准确率也得到了提升。
HD-NDEs: Neural Differential Equations for Hallucination Detection in LLMs作者:Qing Li, Jiahui Geng, Zongxiong Chen, Derui Zhu, Yuxia Wang, Congbo Ma, Chenyang Lyu, Fakhri Karray
🏷 HD-NDEs:用于大语言模型幻觉检测的神经微分方程
摘要: 近年来,大型语言模型(LLMs)取得了显著进展,但“幻觉”现象——即模型生成不准确或不真实陈述——仍然是实际应用中的重大挑战。尽管当前基于分类的方法(如SAPLMA)在缓解幻觉方面效率很高,但当非真实信息出现在输出序列的前中段时,这些方法的表现仍不理想,导致其可靠性下降。为了解决这些问题,我们提出了“HALLUCINATION DETECTION-NEURAL DIFFERENTIAL EQUATIONS(HD-NDEs)”方法,这是一种通过捕捉LLMs潜在空间中的全动态系统,系统性评估陈述真实性的新方法。
我们的方法采用神经微分方程(Neural DEs)对LLMs潜在空间中的动态系统进行建模,随后将潜在空间中的序列映射到分类空间,以进行真实性判断。我们在五个数据集和六个主流LLM上进行了大量实验,结果表明HD-NDEs方法非常有效,尤其是在True-False数据集上,AUC-ROC指标较当前最先进技术提升了14%以上。
(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts
作者:Minghao Wu, Jiahao Xu, Yulin Yuan, Gholamreza Haffari, Longyue Wang, Weihua Luo, Kaifu Zhang
链接:https://arxiv.org/abs/2405.11804
🏷 超越人类翻译:利用多智能体协作翻译超长篇文学文本
摘要: 文学翻译依然是机器翻译领域最具挑战性的前沿之一,因为需要捕捉修辞语言、文化细微差别和独特文体元素的复杂性。在本研究中,我们提出了TRANSAGENTS,这是一种新颖的多智能体框架,模拟了人类翻译公司中的角色和协作实践,包括CEO、高级编辑、初级编辑、翻译、在地化专家和校对员。翻译流程被划分为两个阶段:准备阶段,组建团队并起草全面的翻译指南;执行阶段,依次进行翻译、本地化、校对和最终质量检查。
此外,我们提出了两种创新的评估策略:单语人工偏好(MHP),仅根据目标语言的质量和文化适宜性评估译文;以及双语大模型偏好(BLP),利用GPT-4等大型语言模型进行直接文本对比。尽管TRANSAGENTS由于参考译文多样性有限而获得较低的d-BLEU分数,其译文却显著优于其他基线系统,并且无论是人类评审还是大模型,都更倾向于选择TRANSAGENTS的译文而不是传统人工参考译文或GPT-4的译文。我们的发现突显了多智能体协作在提升翻译质量(尤其是长文本)方面的潜力。
A Unified Agentic Framework for Evaluating Conditional Image Generation作者:Jifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang
链接:https://arxiv.org/abs/2504.07046
🏷 用于条件图像生成评测的统一智能体框架
摘要: 可控图像生成因其在实现内容个性化方面的潜力而受到广泛关注。然而,该领域在构建可靠且可解释的多任务评估指标方面仍面临挑战。为此,本文提出了 CIGEval —— 一个统一的智能体框架,用于对可控图像生成任务进行全面评估。CIGEval 以多模态大模型(LMMs)为核心,配备多功能工具,形成细粒度的评估体系。此外,我们还合成了用于微调的评估轨迹,使参数量较小的 LMM 模型也能自主选择合适的工具,并基于工具输出进行深入分析。
在七个主流可控图像生成任务上的实验表明,CIGEval(GPT-4o 版本)与人工评估之间的相关性达到了 0.4625,接近人类标注者之间的相关性(0.47)。基于开源 7B LMM 的 CIGEval 仅需 2.3K条微调轨迹,性能便超越此前基于 GPT-4o 的最优方法。案例分析显示,CIGEval 能精准识别主体一致性问题并严格遵循控制引导,在自动化评估中具备接近人类评估水平的可靠性。
01
更多论文
ACL'25 | CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models
CogSteer:受认知启发的选择性层干预,实现高效引导大型语言模型
ACL'25 | ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development
ComfyUI-Copilot:用于自动化工作流开发的智能助手
ACL'25 | Marco-Bench-IF: On Multilingual Instruction-Following Capability of Large Language Models
Marco-Bench-IF:大语言模型多语言指令跟随能力研究
ACL'25 | VSCBench: Bridging the Gap in Vision-Language Model Safety Calibration
VSCBench:弥合视觉-语言模型安全校准鸿沟
ACL'25 | Large Language and Protein Assistant for Interactions Prediction
用于蛋白质相互作用预测的大型语言与蛋白智能助手
欢迎留言一起参与讨论~