谷歌被曝正使用 Anthropic 的 Claude 模型来改进其 Gemini AI

IT之家 2024年12月25日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

谷歌Gemini模型在改进过程中，其承包商被曝将Gemini的输出与Anthropic的Claude进行比较。此举引发了关于谷歌是否合规使用Claude进行测试的质疑。与行业基准测试不同，承包商需根据真实性和冗长性等标准评估回复，并判断哪个模型更好。内部记录显示，Claude在安全性方面表现更严格，有时会拒绝不安全的提示，而Gemini则可能出现安全违规。谷歌DeepMind否认使用Claude训练Gemini，但承认会比较模型输出作为评估的一部分。Anthropic的条款禁止客户未经批准使用Claude构建竞争产品或训练AI模型。

🧐 谷歌Gemini模型的承包商在改进过程中，会将Gemini的输出与竞争对手Anthropic的Claude进行比较，以评估模型性能。

🛡️ Claude模型在安全性方面表现更为严格，有时会直接拒绝被认为是不安全的提示词，而Gemini模型则可能出现安全违规的情况。

⚖️ 谷歌DeepMind承认会比较模型输出作为评估过程的一部分，但否认使用Anthropic的Claude模型来训练Gemini，并强调其做法符合行业惯例。

IT之家 12 月 25 日消息，据 TechCrunch 获得的内部通信内容显示，参与改进谷歌 Gemini 人工智能模型的承包商正在将其答案与 Anthropic 的竞品模型 Claude 的输出进行比较。此举引发了谷歌是否获得 Anthropic 授权使用 Claude 进行测试的合规性质疑。

IT之家注意到，在科技公司竞相开发更优秀 AI 模型的当下，模型性能的评估通常通过行业基准测试进行，而非由承包商耗费大量精力评估竞争对手的 AI 回复。然而，Gemini 的承包商需要根据多个标准（例如真实性和冗长性）对看到的每个回复进行评分。根据 TechCrunch 获得的通信内容，承包商最多有 30 分钟的时间来判断 Gemini 或 Claude 的答案哪个更好。

内部聊天记录显示，承包商注意到 Claude 的回复似乎比 Gemini 更强调安全性。一位承包商写道：“在所有 AI 模型中，Claude 的安全设置是最严格的。”在某些情况下，Claude 不会回应其认为不安全的提示词（prompt），例如扮演不同的 AI 助手。在另一次测试中，Claude 避免回答某个提示词，而 Gemini 的回复则因包含“裸体和束缚”而被标记为“严重的安全违规”。

Anthropic 的商业服务条款禁止客户未经 Anthropic 批准访问 Claude“以构建竞争产品或服务”或“训练竞争 AI 模型”。谷歌是 Anthropic 的主要投资者。

对此，谷歌 DeepMind（负责 Gemini）发言人 McNamara 表示，DeepMind 确实会“比较模型输出”以进行评估，但并未在 Anthropic 模型上训练 Gemini。“当然，按照行业惯例，在某些情况下，我们会比较模型输出作为评估过程的一部分，”McNamara 说，“然而，任何关于我们使用 Anthropic 模型训练 Gemini 的说法都是不准确的。”

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签