苹果公司与剑桥大学联合提出一项创新的AI评估系统,旨在通过引入外部验证工具来增强AI评审员(LLM-as-a-judge)的能力,从而提升评估质量。该系统旨在克服当前AI在长篇事实核查、高级编码和数学问题等复杂任务中的评估局限性,以及人类评审员在时间、疲劳和偏见方面存在的挑战。新系统设计的评估代理能够自主判断是否需要外部工具,并选择合适的工具进行验证,包括网络搜索用于事实核查、代码解释器用于代码和数学运算。此举标志着AI评估领域向前迈出了重要一步,有望显著提高AI模型在关键任务上的表现。
🚀 **AI评审员(LLM-as-a-judge)的挑战与革新:** 当前AI在评估大语言模型(LLM)时,尤其是在长篇事实核查、高级编码和数学问题等复杂任务上,存在评估质量下降的问题。同时,人类评审员也面临时间限制、疲劳和偏见等挑战。苹果与剑桥大学提出的新系统,通过为AI评审员配备外部验证工具,旨在克服这些局限性,提升评估的准确性和可靠性。
🛠️ **引入外部验证工具提升评估能力:** 该新系统核心在于引入外部验证工具,使AI评审员能够更有效地处理复杂任务。例如,事实核查工具利用网络搜索来验证响应中的事实依据;代码执行工具(如OpenAI的代码解释器)用于运行和验证代码的正确性;数学核查工具则专门用于验证数学和算术运算的准确性。
🤖 **自主评估代理与多步骤验证流程:** 研究人员创建的评估代理具有自主性,能够根据响应内容判断是否需要外部工具,并选择最合适的工具进行验证。整个评估过程包含三个主要步骤:首先是初始领域评估,然后是工具使用以进行验证,最后是做出最终决策。这种结构化的方法确保了评估的全面性和准确性。
💡 **平衡效率与准确性:** 系统设计中考虑到效率问题,如果判断没有外部工具能够提供帮助,则会回退到使用基线LLM注释器。这一策略可以避免在处理简单任务时进行不必要的外部工具调用,从而节省资源并防止潜在的绩效下降,在保证准确性的同时兼顾了效率。
IT之家 7 月 24 日消息,科技媒体 NeoWin 今天(7 月 24 日)发布博文,报道称苹果公司携手剑桥大学,提出一种新的 AI 评估系统,通过引入外部验证工具增强 AI 评审员的能力,以提高评审质量。
在评估大语言模型(LLM)时,研究人员和开发者越来越多地借助 AI 力量,这种方式也称为“LLM-as-a-judge”。不过这种方式也存在诸多挑战,在长篇事实核查、高级编码和数学问题等复杂任务中,评估质量往往会下降。

苹果携手剑桥大学发表了一篇新研究论文,概述了一种新系统,通过为 AI 评审员配备外部验证工具,以提高其评审质量,从而克服人类和 AI 注释中的局限性。
人类评审员由于时间限制、疲劳以及更倾向于写作风格而非事实准确性,面临挑战和偏见,而 AI 在上述复杂任务上则遇到困难。
研究人员创建的评估代理是具有自主性的,它能够评估响应以确定是否需要外部工具,并使用正确的工具。每个评估都经过三个主要步骤:初始领域评估、工具使用和最终决策。

事实核查工具使用网络搜索来验证响应中的原子事实;代码执行利用 OpenAI 的代码解释器运行并验证代码的正确性;数学核查工具是代码执行工具的一个专门版本,用于验证数学和算术运算。

如果发现没有工具对判断有帮助,系统将使用基线 LLM 注释器,以避免在简单任务上不必要的处理和潜在的绩效回归。
IT之家附上参考地址