IT之家 04月10日 08:03
OpenAI 启动先锋计划,旨在重塑 AI 模型评分体系
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 推出“先锋计划”,旨在改进当前 AI 模型的评分方式。由于现有 AI 基准测试存在缺陷,该计划将专注于创建更贴合实际应用场景的评估体系。OpenAI 计划与多家公司合作,为法律、金融、保险、医疗保健和会计等特定领域创建定制化的基准测试。通过与初创公司的合作,并提供行业特定的评估,OpenAI 期望提升 AI 模型在实际应用中的表现,并解决当前 AI 模型评估中难以区分差异的问题。

💡现有 AI 基准测试的缺陷:OpenAI 认为,现有的 AI 基准测试存在缺陷,例如侧重于衡量模型在一些晦涩任务上的表现,容易被操纵,或者与大多数人的偏好不一致。

🎯先锋计划的目标:该计划旨在创建能够“设定优秀标准”的评估体系,创建特定领域的评估指标,更好地反映实际应用场景,帮助团队在实际且高风险环境中评估模型性能。

🤝合作与应用领域:OpenAI 将与多家公司合作,为法律、金融、保险、医疗保健和会计等特定领域创建基准测试。首批参与者将专注于初创公司,这些公司在高价值、应用广泛的用例中使用 AI。

🛠️技术支持与改进:参与该计划的公司将有机会与 OpenAI 团队合作,通过强化微调技术改进模型,从而提升其在特定领域的表现。

🤔潜在争议:AI 社区是否会接受由 OpenAI 资助创建的基准测试,此前 OpenAI 曾在财务上支持过基准测试工作,与客户合作发布 AI 测试可能会被视为在道德上存在争议。

IT之家 4 月 10 日消息,OpenAI 宣布启动 OpenAI 先锋计划(OpenAI Pioneers Program),致力于改善当前 AI 模型的评分方式。该公司认为现有的 AI 基准测试存在缺陷,而该计划将专注于创建能够“设定优秀标准”的评估体系。

随着 AI 技术在各行业的应用加速普及,深入了解并提升其在现实世界中的影响力变得至关重要。OpenAI 在其博客中指出,创建特定领域的评估指标是更好地反映实际应用场景、帮助团队在实际且高风险环境中评估模型性能的有效途径之一。

近期,众包基准测试平台 LM Arena 与 Meta 的 Maverick 模型引发的争议凸显了一个问题:如今,人们很难明确区分不同 AI 模型之间的差异。许多广泛使用的 AI 基准测试侧重于衡量模型在一些晦涩任务上的表现,例如解决博士级别的数学难题。还有一些基准测试容易被操纵,或者与大多数人的偏好不一致。

据IT之家了解,通过先锋计划,OpenAI 希望为法律、金融、保险、医疗保健和会计等特定领域创建基准测试。该实验室表示,在未来几个月内,将与“多家公司”合作设计定制化的基准测试,并最终将这些基准测试公开,同时提供“行业特定”的评估。

OpenAI 在博客中提到,先锋计划的第一批参与者将专注于初创公司,这些公司将帮助奠定该计划的基础。他们将从众多初创公司中挑选出少数几家,这些公司都在从事高价值、应用广泛的用例,AI 在其中可以产生实际影响。

参与该计划的公司还将有机会与 OpenAI 团队合作,通过强化微调技术改进模型。这种技术可以针对一组特定任务优化模型,从而提升其在特定领域的表现。

然而,一个关键问题是 AI 社区是否会接受由 OpenAI 资助创建的基准测试。此前,OpenAI 曾在财务上支持过基准测试工作,并设计了自己的评估方法。但与客户合作发布 AI 测试可能会被视为在道德上存在争议。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI AI评估 基准测试 先锋计划
相关文章