2025-02-10 17:00 北京
这两篇论文分别聚焦 GUI Agent 和机器翻译方向,其部分研究成果已在小爱翻译中得到实际应用。在 GUI Agent 方向,我们将手机控制任务拆解为页面到达和页面操作子任务,让 Agent 更关注整体任务完成能力,而非单步最优解;在机器翻译方向,我们基于大语言模型,探索用于多语言翻译中的最佳训练范式,并开源了一系列翻译模型。这是小米大模型部分研究成果的阶段性展示,同时也是践行小米科技战略中“深耕底层技术、长期持续投入”的又一例证。
01
▍《ReachAgent: Enhancing Mobile Agent via Page Reaching and Page Operation》
最近,移动 AI 智能体(Mobile AI Agent)越来越受到关注。给定一个任务,移动 AI 智能体可以通过多个步骤与移动设备交互,最终形成解决该任务的 GUI 链条。然而,现有的智能体往往在每个步骤中关注与任务最相关的元素,导致局部最优解,而忽略了整体 GUI 链条。为了解决这个问题,我们构建了一个名为 MobileReach 的训练数据集,将任务分为页面访问和操作子任务。
此外,我们提出了 ReachAgent,这是一个两阶段框架,专注于提高其任务完成能力。它利用页面访问和页面操作子任务以及基于奖励的偏好 GUI 链条来进一步增强代理。实验结果表明,与 SOTA 代理相比,ReachAgent 在步骤级别的 IoU 准确率和文本准确率上显著提高了7.12% 和 7.69%,在任务级别上显著提高了4.72% 和 4.63%。
▍《Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study》
论文链接:https://arxiv.org/abs/2502.02481
开源链接:https://huggingface.co/collections/ModelSpace/gemmax2-673714f5049bfa3a90bee6b6
02
多语言翻译技术赋能小爱翻译,打破语言壁垒
依托这一技术,小爱翻译能为用户带来全方位的语言助力。在观看无字幕的外语视频时,用户不再受语言隔阂的困扰,能原汁原味地沉浸其中,深度领略不同文化的独特魅力;浏览外文网页时,繁杂的外文内容不再晦涩难懂,用户只需轻轻一点,便能获取精准的内容解读,轻松打破信息获取过程中的语言壁垒。
在与外国友人的交流场景中,无论是面对面的深度文化探讨,还是电话里的畅快沟通,小爱翻译都能成为得力助手,让交流无阻碍;在日常生活中,遇到含有外文的图文,也可立马得到精准的机器翻译译文。真正做到随时随地,轻松应对各种语言障碍,实现边说边译、边听边译、边看边译,开启即时交流的便捷新时代。
未来,我们将持续探索和推动多语言翻译技术发展,服务于产品应用,让全球每个人都能享受没有语言障碍的美好生活。