OpenAI 承诺更频繁地发布 AI 安全测试结果

Cnbeta 05月15日 01:37

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

OpenAI 宣布更定期地发布其内部 AI 模型安全评估结果，旨在提高透明度。该公司推出了安全评估中心，展示模型在有害内容生成、越狱和幻觉等测试中的得分，并承诺持续更新。此举旨在分享在模型能力和安全性衡量方面的进展，并支持社区提高透明度的努力。此前，OpenAI 曾因安全测试仓促和未能发布技术报告而受到批评。最近，ChatGPT 默认模型 GPT-4o 因响应过于顺从而被回滚。OpenAI 计划通过修复和引入“alpha 阶段”来防止类似事件发生。

🛡️OpenAI 推出安全评估中心，定期展示 AI 模型在有害内容生成、越狱和幻觉等测试中的得分，以提高透明度。

📈 OpenAI 承诺“持续”使用该中心共享指标，并计划在未来通过“重大模型更新”来更新该中心，展示其在模型安全性能方面的进展。

⚠️ 近期，OpenAI 因安全测试仓促和未能发布技术报告而受到批评，ChatGPT 默认模型 GPT-4o 也因响应过于顺从而被回滚。

🛠️ OpenAI 将实施多项修复和更改，包括为某些模型引入可选的“alpha 阶段”，允许用户在发布前测试模型并提供反馈，以防止类似事件再次发生。

OpenAI 正在更定期地发布其内部 AI 模型安全评估的结果，该公司表示此举是为了提高透明度。周三，OpenAI 推出了安全评估中心，这是一个网页，用于展示该公司模型在有害内容生成、越狱和幻觉等各种测试中的得分。OpenAI 表示，它将“持续”使用该中心共享指标，并计划在未来通过“重大模型更新”来更新该中心。

OpenAI 在一篇博客文章中写道：“随着人工智能评估科学的发展，我们的目标是分享我们在开发更具可扩展性的模型能力和安全性衡量方法方面的进展。通过在此分享我们的部分安全评估结果，我们希望这不仅能让人们更容易地了解 OpenAI 系统随时间推移的安全性能，还能支持社区为提高整个领域的透明度所做的努力。”

OpenAI 表示，随着时间的推移，它可能会向该中心添加额外的评估。

近几个月来，OpenAI 引发了一些伦理学家的愤怒，据报道，该公司仓促完成了某些旗舰模型的安全测试，而未能发布其他模型的技术报告。该公司首席执行官萨姆·奥特曼 (Sam Altman) 还被指控在 2023 年 11 月短暂离职之前，在模型安全评估方面误导了 OpenAI 高管。

上个月底，OpenAI 被迫回滚了ChatGPT 默认模型 GPT-4o 的更新，因为用户开始反映该模型的响应方式过于确认和顺从。X 上充斥着 ChatGPT 的截图，这些截图赞扬了各种有问题、危险的决定和想法。

OpenAI表示，它将实施多项修复和更改以防止将来发生此类事件，包括为某些模型引入可选的“alpha 阶段”，允许某些 ChatGPT 用户在发布之前测试模型并提供反馈。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签