阿里国际AI Business技术团队多篇论文入选 ACL 2025

AIDC-AI 2025-05-20 14:30 浙江

近日，ACL 2025 （Annual Meeting of the Association for Computational Linguistics) 论文接收结果公布，阿里国际AI Busine...

这是2025年的第57篇文章

（本文阅读时间：15分钟）

摘要

近日，第63届国际计算语言学年会ACL 2025 （Annual Meeting of the Association for Computational Linguistics，简称ACL) 论文接收结果公布，阿里国际AI Business技术团队多篇论文被录用。

ACL是自然语言处理领域最具影响力的国际会议之一，也是中国计算机学会（CCF）推荐的A类国际学术会议。该会议每年举办一次，由国际计算语言学学会协会主办。会议同期将举办技术研讨会、行业论坛及学生竞赛，推动产学研深度结合。

本届会议将于 2025 年 7 月 27 日至 8 月 1 日在奥地利维也纳举行。据统计，今年ACL总投稿数高达8000多篇，创历史之最，被称为ACL论文收录竞争最为激烈的一年。AI Business技术团队共被录取9篇论文，含6篇主会长文。主题涵盖了大语言模型、推理大模型、机器翻译、多模态模型、AI for science等方向。接下来为大家介绍入选论文，后续我们将邀请论文作者详细解析论文思路和技术成果，欢迎关注~

AI Business技术·论文摘要

Marco-o1 V2: Towards Widening The Distillation Bottleneck for Reasoning Models

作者：Huifeng Yin, Yu Zhao, Minghao Wu, Xuanfan Ni, Bo Zeng, Hao Wang, Tianqi Shi, Liangying Shao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang

链接：https://arxiv.org/abs/2503.01461

🏷 Marco-o1 V2：拓宽推理模型蒸馏瓶颈的新探索

摘要：大规模推理模型（LRMs），如 OpenAI o1 和 DeepSeek-R1，通过提升推理计算和生成更长的思维链（Chain-of-Thought, CoT），展现了强大的推理能力。为了让小模型也具备类似的推理能力，业界常用“蒸馏”技术——即用大模型生成的数据对小模型进行再训练。然而，我们发现：直接用大模型生成的长思维链数据训练小模型，不仅难以学习，还容易让小模型继承“过度思考”等偏差，尤其是在有监督微调（SFT）和强化学习（RL）阶段。

为了解决这一瓶颈，论文提出了创新方案：利用蒙特卡洛树搜索（MCTS）从零构建树状思维链数据，并结合一系列 CoT 感知方法（如思维链长度平衡、细粒度 DPO、联合后训练目标），显著提升了小模型在推理任务中的表现。我们的方法在五个以考试为导向和开放式的基准测试上进行了验证，涵盖了三种不同难度的数学任务（GSM8K、MATH 和 AIME）、八种语言的指令跟随（Multi-IF）以及真实世界的规划任务（Blocksworld）。实验结果显示，我们提出的方法在所有任务上都能持续且独立地提升推理表现，显著优于传统蒸馏模型。这一提升主要得益于在长链式思考过程中减少了幻觉现象，尤其是内容重复，从而有效降低了“无答案”现象，整体准确率也得到了提升。

HD-NDEs: Neural Differential Equations for Hallucination Detection in LLMs

作者：Qing Li, Jiahui Geng, Zongxiong Chen, Derui Zhu, Yuxia Wang, Congbo Ma, Chenyang Lyu, Fakhri Karray

🏷 HD-NDEs：用于大语言模型幻觉检测的神经微分方程

摘要：近年来，大型语言模型（LLMs）取得了显著进展，但“幻觉”现象——即模型生成不准确或不真实陈述——仍然是实际应用中的重大挑战。尽管当前基于分类的方法（如SAPLMA）在缓解幻觉方面效率很高，但当非真实信息出现在输出序列的前中段时，这些方法的表现仍不理想，导致其可靠性下降。为了解决这些问题，我们提出了“HALLUCINATION DETECTION-NEURAL DIFFERENTIAL EQUATIONS（HD-NDEs）”方法，这是一种通过捕捉LLMs潜在空间中的全动态系统，系统性评估陈述真实性的新方法。

我们的方法采用神经微分方程（Neural DEs）对LLMs潜在空间中的动态系统进行建模，随后将潜在空间中的序列映射到分类空间，以进行真实性判断。我们在五个数据集和六个主流LLM上进行了大量实验，结果表明HD-NDEs方法非常有效，尤其是在True-False数据集上，AUC-ROC指标较当前最先进技术提升了14%以上。

(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts

作者：Minghao Wu, Jiahao Xu, Yulin Yuan, Gholamreza Haffari, Longyue Wang, Weihua Luo, Kaifu Zhang

链接：https://arxiv.org/abs/2405.11804

🏷 超越人类翻译：利用多智能体协作翻译超长篇文学文本

摘要：文学翻译依然是机器翻译领域最具挑战性的前沿之一，因为需要捕捉修辞语言、文化细微差别和独特文体元素的复杂性。在本研究中，我们提出了TRANSAGENTS，这是一种新颖的多智能体框架，模拟了人类翻译公司中的角色和协作实践，包括CEO、高级编辑、初级编辑、翻译、在地化专家和校对员。翻译流程被划分为两个阶段：准备阶段，组建团队并起草全面的翻译指南；执行阶段，依次进行翻译、本地化、校对和最终质量检查。

此外，我们提出了两种创新的评估策略：单语人工偏好（MHP），仅根据目标语言的质量和文化适宜性评估译文；以及双语大模型偏好（BLP），利用GPT-4等大型语言模型进行直接文本对比。尽管TRANSAGENTS由于参考译文多样性有限而获得较低的d-BLEU分数，其译文却显著优于其他基线系统，并且无论是人类评审还是大模型，都更倾向于选择TRANSAGENTS的译文而不是传统人工参考译文或GPT-4的译文。我们的发现突显了多智能体协作在提升翻译质量（尤其是长文本）方面的潜力。

A Unified Agentic Framework for Evaluating Conditional Image Generation

作者：Jifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

链接：https://arxiv.org/abs/2504.07046

🏷 用于条件图像生成评测的统一智能体框架

摘要：可控图像生成因其在实现内容个性化方面的潜力而受到广泛关注。然而，该领域在构建可靠且可解释的多任务评估指标方面仍面临挑战。为此，本文提出了 CIGEval —— 一个统一的智能体框架，用于对可控图像生成任务进行全面评估。CIGEval 以多模态大模型（LMMs）为核心，配备多功能工具，形成细粒度的评估体系。此外，我们还合成了用于微调的评估轨迹，使参数量较小的 LMM 模型也能自主选择合适的工具，并基于工具输出进行深入分析。

在七个主流可控图像生成任务上的实验表明，CIGEval（GPT-4o 版本）与人工评估之间的相关性达到了 0.4625，接近人类标注者之间的相关性（0.47）。基于开源 7B LMM 的 CIGEval 仅需 2.3K条微调轨迹，性能便超越此前基于 GPT-4o 的最优方法。案例分析显示，CIGEval 能精准识别主体一致性问题并严格遵循控制引导，在自动化评估中具备接近人类评估水平的可靠性。