OpenAI 宣布为行业创建定制 AI 基准的计划

Cnbeta 04月10日 15:10

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

OpenAI推出了“先锋计划”，旨在改进人工智能模型的评估方式，并推动其在实际用例中的应用。该计划将与企业合作，开发更具实际意义的基准测试，以反映现实世界的挑战。OpenAI将为入选的公司提供研究团队的支持，重点关注行业特定评估和针对三大用例的微调模型。目标行业包括法律、金融、医疗保健等。此外，OpenAI还将帮助企业使用强化微调（RFT）训练定制模型，以实现生产规模的部署。该计划初期将选择少数初创公司，并根据其项目的实际影响进行评估，未来可能会扩展到更大的公司和更复杂的领域。

💡 OpenAI的“先锋计划”旨在改进人工智能模型的评估方式，以解决当前基准测试可能无法准确反映现实世界挑战的问题。

🏢 该计划将与企业合作，共同开发更具实际意义的基准测试，并针对法律、金融、医疗保健、保险和会计等行业制定特定领域的评估标准。

🛠️ OpenAI将为入选的公司提供研究团队的支持，并帮助其使用强化微调（RFT）训练定制版本的OpenAI模型，以创建在特定任务集上表现优异的“专家”模型。

🎯 参与的公司将专注于解决实际问题，OpenAI希望通过这种方式，使得更智能、更专注的人工智能能够带来显著的改变，并实现生产规模的部署。

OpenAI宣布了其先锋计划，称其为“一项旨在推动人工智能在实际用例中部署的计划”。先锋计划旨在改进评估人工智能模型的方式，因为开发人员和公司都越来越依赖基准来做出明智的决策，决定使用哪种人工智能模型以及如何在其应用程序中进行优化。

此前，Meta最近被指在 LMArena 基准测试中作弊，导致 Llama 4 的排名高于其他模型。先锋计划面向企业，这些企业将与 OpenAI 的研究人员携手合作，开发更有意义的基准测试，以反映现实世界的挑战，而不仅仅是排行榜上的得分。

OpenAI 表示，入选的公司将获得其研究团队的实际支持，重点关注两个关键成果：针对每个行业制定特定领域的评估，并构建旨在处理与该公司运营相关的三大用例的微调模型。

这些定制基准测试的目标行业是法律、金融、医疗保健、保险和会计等行业。OpenAI 指出，目前许多领域尚无统一的 AI 性能衡量标准，这使得公平评估模型或改进模型变得困难。OpenAI 希望通过与这些垂直领域的公司直接合作，定义特定领域中“良好”的标准，并发布这些评估结果供其他人参考。

该计划的另一部分是关于微调的。参与的公司将获得帮助，使用强化微调（RFT）训练定制版本的OpenAI模型。OpenAI使用这种方法来创建在特定任务集上表现优异的“专家”模型。据OpenAI称，这些模型可以投入生产规模部署。

首批入选的初创公司将由少数几家组成，每家公司的入选都基于其所构建项目的实际影响。OpenAI 表示，他们正在寻找能够解决实际问题的团队，在这些问题上，更智能、更专注的人工智能能够带来显著的改变。随着项目的发展，它可能会扩展到更大的公司和更复杂的领域。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签