阿里技术 05月21日 12:26
阿里国际AI Business技术团队多篇论文入选 ACL 2025
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

阿里国际AI Business技术团队在ACL 2025上有多篇论文被录用,涵盖大语言模型、推理大模型、机器翻译、多模态模型、AI for science等方向。其中,Marco-o1 V2通过拓宽推理模型蒸馏瓶颈提升小模型推理能力;HD-NDEs利用神经微分方程进行大语言模型幻觉检测;TRANSAGENTS则提出多智能体框架,用于翻译超长篇文学文本;CIGEval构建统一智能体框架,用于评估可控图像生成任务。这些研究成果展示了阿里在自然语言处理领域的前沿探索。

🧠Marco-o1 V2通过蒙特卡洛树搜索构建树状思维链数据,结合CoT感知方法,提升小模型在推理任务中的表现,有效减少长链式思考过程中的幻觉现象。

👁️HD-NDEs提出了一种通过捕捉LLMs潜在空间中的全动态系统,系统性评估陈述真实性的新方法,尤其是在True-False数据集上,AUC-ROC指标较当前最先进技术提升了14%以上。

🤝TRANSAGENTS模拟人类翻译公司中的角色和协作实践,利用多智能体框架翻译超长篇文学文本,其译文显著优于其他基线系统,在提升翻译质量方面展现出潜力。

🖼️CIGEval是一个统一的智能体框架,以多模态大模型为核心,配备多功能工具,对可控图像生成任务进行全面评估,在自动化评估中具备接近人类评估水平的可靠性。

AIDC-AI 2025-05-20 14:30 浙江

近日,ACL 2025 (Annual Meeting of the Association for Computational Linguistics) 论文接收结果公布,阿里国际AI Busine...

这是2025年的第57篇文章

( 本文阅读时间:15分钟 )

01

摘要

近日,第63届国际计算语言学年会ACL 2025 (Annual Meeting of the Association for Computational Linguistics,简称ACL) 论文接收结果公布,阿里国际AI Business技术团队多篇论文被录用。

ACL是自然语言处理领域最具影响力的国际会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。该会议每年举办一次,由国际计算语言学学会协会主办。会议同期将举办技术研讨会、行业论坛及学生竞赛,推动产学研深度结合。

本届会议将于 2025 年 7 月 27 日至 8 月 1 日 在奥地利维也纳举行。据统计,今年ACL总投稿数高达8000多篇,创历史之最,被称为ACL论文收录竞争最为激烈的一年。AI Business技术团队共被录取9篇论文,含6篇主会长文。主题涵盖了大语言模型、推理大模型、机器翻译、多模态模型、AI for science等方向。接下来为大家介绍入选论文,后续我们将邀请论文作者详细解析论文思路和技术成果,欢迎关注~

02

AI Business技术·论文摘要

Marco-o1 V2: Towards Widening The Distillation Bottleneck for Reasoning Models

作者:Huifeng Yin, Yu Zhao, Minghao Wu, Xuanfan Ni, Bo Zeng, Hao Wang, Tianqi Shi, Liangying Shao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang

链接:https://arxiv.org/abs/2503.01461

🏷 Marco-o1 V2:拓宽推理模型蒸馏瓶颈的新探索

摘要: 大规模推理模型(LRMs),如 OpenAI o1 和 DeepSeek-R1,通过提升推理计算和生成更长的思维链(Chain-of-Thought, CoT),展现了强大的推理能力。为了让小模型也具备类似的推理能力,业界常用“蒸馏”技术——即用大模型生成的数据对小模型进行再训练。然而,我们发现:直接用大模型生成的长思维链数据训练小模型,不仅难以学习,还容易让小模型继承“过度思考”等偏差,尤其是在有监督微调(SFT)和强化学习(RL)阶段。

为了解决这一瓶颈,论文提出了创新方案:利用蒙特卡洛树搜索(MCTS)从零构建树状思维链数据,并结合一系列 CoT 感知方法(如思维链长度平衡、细粒度 DPO、联合后训练目标),显著提升了小模型在推理任务中的表现。我们的方法在五个以考试为导向和开放式的基准测试上进行了验证,涵盖了三种不同难度的数学任务(GSM8K、MATH 和 AIME)、八种语言的指令跟随(Multi-IF)以及真实世界的规划任务(Blocksworld)。实验结果显示,我们提出的方法在所有任务上都能持续且独立地提升推理表现,显著优于传统蒸馏模型。这一提升主要得益于在长链式思考过程中减少了幻觉现象,尤其是内容重复,从而有效降低了“无答案”现象,整体准确率也得到了提升。

HD-NDEs: Neural Differential Equations for Hallucination Detection in LLMs

作者:Qing Li, Jiahui Geng, Zongxiong Chen, Derui Zhu, Yuxia Wang, Congbo Ma, Chenyang Lyu, Fakhri Karray

🏷 HD-NDEs:用于大语言模型幻觉检测的神经微分方程

摘要: 近年来,大型语言模型(LLMs)取得了显著进展,但“幻觉”现象——即模型生成不准确或不真实陈述——仍然是实际应用中的重大挑战。尽管当前基于分类的方法(如SAPLMA)在缓解幻觉方面效率很高,但当非真实信息出现在输出序列的前中段时,这些方法的表现仍不理想,导致其可靠性下降。为了解决这些问题,我们提出了“HALLUCINATION DETECTION-NEURAL DIFFERENTIAL EQUATIONS(HD-NDEs)”方法,这是一种通过捕捉LLMs潜在空间中的全动态系统,系统性评估陈述真实性的新方法。

我们的方法采用神经微分方程(Neural DEs)对LLMs潜在空间中的动态系统进行建模,随后将潜在空间中的序列映射到分类空间,以进行真实性判断。我们在五个数据集和六个主流LLM上进行了大量实验,结果表明HD-NDEs方法非常有效,尤其是在True-False数据集上,AUC-ROC指标较当前最先进技术提升了14%以上。

(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts

作者:Minghao Wu, Jiahao Xu, Yulin Yuan, Gholamreza Haffari, Longyue Wang, Weihua Luo, Kaifu Zhang

链接:https://arxiv.org/abs/2405.11804

🏷 超越人类翻译:利用多智能体协作翻译超长篇文学文本

摘要: 文学翻译依然是机器翻译领域最具挑战性的前沿之一,因为需要捕捉修辞语言、文化细微差别和独特文体元素的复杂性。在本研究中,我们提出了TRANSAGENTS,这是一种新颖的多智能体框架,模拟了人类翻译公司中的角色和协作实践,包括CEO、高级编辑、初级编辑、翻译、在地化专家和校对员。翻译流程被划分为两个阶段:准备阶段,组建团队并起草全面的翻译指南;执行阶段,依次进行翻译、本地化、校对和最终质量检查。

此外,我们提出了两种创新的评估策略:单语人工偏好(MHP),仅根据目标语言的质量和文化适宜性评估译文;以及双语大模型偏好(BLP),利用GPT-4等大型语言模型进行直接文本对比。尽管TRANSAGENTS由于参考译文多样性有限而获得较低的d-BLEU分数,其译文却显著优于其他基线系统,并且无论是人类评审还是大模型,都更倾向于选择TRANSAGENTS的译文而不是传统人工参考译文或GPT-4的译文。我们的发现突显了多智能体协作在提升翻译质量(尤其是长文本)方面的潜力。

A Unified Agentic Framework for Evaluating Conditional Image Generation

作者:Jifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

链接:https://arxiv.org/abs/2504.07046

🏷 用于条件图像生成评测的统一智能体框架

摘要: 可控图像生成因其在实现内容个性化方面的潜力而受到广泛关注。然而,该领域在构建可靠且可解释的多任务评估指标方面仍面临挑战。为此,本文提出了 CIGEval —— 一个统一的智能体框架,用于对可控图像生成任务进行全面评估。CIGEval 以多模态大模型(LMMs)为核心,配备多功能工具,形成细粒度的评估体系。此外,我们还合成了用于微调的评估轨迹,使参数量较小的 LMM 模型也能自主选择合适的工具,并基于工具输出进行深入分析。

在七个主流可控图像生成任务上的实验表明,CIGEval(GPT-4o 版本)与人工评估之间的相关性达到了 0.4625,接近人类标注者之间的相关性(0.47)。基于开源 7B LMM 的 CIGEval 仅需 2.3K条微调轨迹,性能便超越此前基于 GPT-4o 的最优方法。案例分析显示,CIGEval 能精准识别主体一致性问题并严格遵循控制引导,在自动化评估中具备接近人类评估水平的可靠性。

01

更多论文

ACL'25 | CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models 

CogSteer:受认知启发的选择性层干预,实现高效引导大型语言模型

论文链接: https://arxiv.org/abs/2410.17714

ACL'25 | ComfyUI-Copilot: An Intelligent Assistant for Automated Workflow Development 

ComfyUI-Copilot:用于自动化工作流开发的智能助手

开源链接:https://github.com/AIDC-AI/ComfyUI-Copilot

ACL'25 | Marco-Bench-IF: On Multilingual Instruction-Following Capability of Large Language Models 

Marco-Bench-IF:大语言模型多语言指令跟随能力研究

ACL'25 | VSCBench: Bridging the Gap in Vision-Language Model Safety Calibration    

VSCBench:弥合视觉-语言模型安全校准鸿沟

ACL'25 | Large Language and Protein Assistant for Interactions Prediction

用于蛋白质相互作用预测的大型语言与蛋白智能助手

欢迎留言一起参与讨论~

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ACL 2025 自然语言处理 人工智能 阿里AI 大语言模型
相关文章